文本到語音(tts)技術(shù)作為人機(jī)交互領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),其發(fā)展經(jīng)歷了從基礎(chǔ)的音素拼接到復(fù)雜的統(tǒng)計(jì)參數(shù)合成,再到當(dāng)前深度學(xué)習(xí)驅(qū)動(dòng)的端到端神經(jīng)網(wǎng)絡(luò)合成的演變。目前主流的 TTS 技術(shù)包括以下幾種主流模式。


語音合成


1、基于統(tǒng)計(jì)參數(shù)的語音合成


隱馬爾可夫模型(HMM):通過學(xué)習(xí)語音數(shù)據(jù)建立音素與聲學(xué)特征統(tǒng)計(jì)關(guān)系來合成語音,模型簡(jiǎn)潔、計(jì)算量小,但語音自然度欠佳。


深度神經(jīng)網(wǎng)絡(luò)(DNN)參數(shù)合成:利用 DNN 強(qiáng)大建模能力學(xué)習(xí)文本與聲學(xué)特征映射,語音質(zhì)量較 HMM 有提升,但訓(xùn)練數(shù)據(jù)多、耗時(shí)長(zhǎng)且對(duì)硬件要求高。


2、波形拼接語音合成


基于大語料庫的拼接合成:預(yù)先錄制大量語音片段建庫,依文本挑選拼接,自然度和音質(zhì)好,但需大存儲(chǔ)空間,對(duì)新詞處理有局限。


單元選擇拼接合成:更注重語音單元選擇與拼接策略,能更好處理韻律語調(diào),然構(gòu)建維護(hù)語音庫需大量人力時(shí)間。


3、混合方法


HMM-DNN 混合模型:結(jié)合兩者優(yōu)勢(shì),先 HMM 分析再 DNN 優(yōu)化聲學(xué)參數(shù),平衡質(zhì)量、自然度與計(jì)算成本。


拼接合成與參數(shù)合成混合:常見語音單元拼接,罕見單元參數(shù)合成,兼具兩者長(zhǎng)處,擴(kuò)大系統(tǒng)適應(yīng)性。


4、端到端神經(jīng)網(wǎng)絡(luò)語音合成


Tacotron 系列:從文本直接生成聲學(xué)特征再轉(zhuǎn)語音波形,含注意力機(jī)制,但生成速度慢,處理長(zhǎng)文本耗時(shí)。


FastSpeech 系列:采用非自回歸結(jié)構(gòu)提高合成速度,后續(xù)版本不斷提升精度與自然度。


VALL-E 和 SPEAR-TTS:VALL-E 可依據(jù)少量語音樣本合成相似音色語音且跨語言;SPEAR-TTS 提升質(zhì)量與效率,降低復(fù)雜度與成本。