什么是tts呢?它是一種能把文字信息轉換成我們能聽到的語音信號的技術,就像給文字裝上了嘴巴,讓它可以用不同的音色說話。它在我們生活中的應用可廣泛啦,像汽車導航、機器人,還有很多語音軟件里都有它的身影。
一、技術原理
它分為前端的語言分析部分和后端的聲學系統(tǒng)部分。前端要對輸入的文本進行很多處理。首先要判斷語種,像中文、英文等,然后把文字按照語法規(guī)則切成句子。
如果有阿拉伯數字或字母,還得轉化成文字,不過這個轉化是有規(guī)則的哦。比如說手機號碼的數字就不是完全按照數字的完整讀法來轉化的。
接著要把文字轉成音素,這就像我們漢語里把字轉成拼音一樣,但是要注意多音字的情況,得通過分析判斷正確的讀音和音調。
最后還要預測句讀韻律,就像我們人說話一樣,要有停頓、重音和輕音,這樣合成出來的聲音才會有高低曲折、抑揚頓挫的感覺。
后端的聲學系統(tǒng)部分也有幾種不同的技術。像波形拼接語音合成,它是通過錄制大量的音頻,然后用這些音頻拼接成對應的文本音頻。
優(yōu)點是錄音量夠大的話效果好,但缺點是需要的錄音量太大,而且字間過渡不自然。參數語音合成技術則是通過數學方法對錄音進行建模,它的優(yōu)點是錄音量小,字間過渡平滑,但是音質沒有波形拼接的好,還有機械感和雜音。
端到端語音合成技術是通過神經網絡學習,直接輸入文本就能輸出音頻,它對語言學知識要求低,合成的音頻很像人說話,不過性能會降低,而且不能人為調優(yōu)。
二、技術邊界
雖然TTS技術已經很厲害了,但它還是有一些不足的地方。
在擬人化方面,雖然已經很接近真人了,但專業(yè)人員還是能聽出來是合成的,因為合成音的韻律沒有真人那么自然,不會隨著文本內容有很大的起伏變化,單個字詞可能還有機械感。
在情緒化方面也有欠缺,比如讀小說的時候,小說里有很多不同的情緒場景,但合成的音頻感情和情緒比較平穩(wěn),沒有很大的起伏。
不過,它在我們生活中的應用還是給我們帶來了很多便利。比如在汽車導航里給我們提示路線,讓機器人能和我們聊天,在語音軟件里給我們讀小說、讀新聞。