1.概述
TTS(Text To Speech)又稱語(yǔ)音合成,是一種將文本轉(zhuǎn)化成相應(yīng)語(yǔ)音的技術(shù)。TTS技術(shù)從誕生到現(xiàn)在已經(jīng)有200多年的歷史。在1779年,德國(guó)科學(xué)家Kratzenstein首次開發(fā)出五個(gè)長(zhǎng)元音的人類聲道模型,并于1791年加入了舌頭和嘴唇模型,實(shí)現(xiàn)元音輔音的聲道模型。隨后TTS技術(shù)陷入了漫長(zhǎng)的沉寂期,直到20世紀(jì)30年代和70年代,兩大技術(shù)的突破大大推動(dòng)了TTS技術(shù)的發(fā)展,1939年,貝爾實(shí)驗(yàn)室制作出了第一個(gè)語(yǔ)音合成器The Voder,1979年MIT開發(fā)出了著名的語(yǔ)音合成系統(tǒng)MITalk。1992年,PSOLA(基因同步疊加技術(shù))的提出使合成的語(yǔ)音更加自然。21世紀(jì)以來(lái),基于HMM的語(yǔ)音合成系統(tǒng)和基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)逐漸成為研究主流,并取得良好的效果。目前,TTS已廣泛應(yīng)用到日常的生活當(dāng)中,如語(yǔ)音助手、智能音箱、地圖導(dǎo)航等。
2.TTS系統(tǒng)現(xiàn)狀
對(duì)于早期的語(yǔ)音合成系統(tǒng)來(lái)說(shuō),只要發(fā)音清晰,內(nèi)容流暢并完全可懂就可以算是一個(gè)優(yōu)秀的系統(tǒng)了。但是隨著時(shí)代發(fā)展,技術(shù)的進(jìn)步以及應(yīng)用場(chǎng)景的細(xì)化,這類系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足人們的需求。目前業(yè)界的TTS系統(tǒng)主要分為通用性TTS,個(gè)性化TTS,情感TTS三類。
通用性TTS:這類TTS系統(tǒng)基本已經(jīng)達(dá)到可以商用的地步了,但是由于依舊存在機(jī)械感,不能模擬自然人聲的原因,如果用戶預(yù)期較高的話很難滿足用戶需求。
個(gè)性化TTS:在特定的應(yīng)用場(chǎng)景下這類TTS系統(tǒng)基本能滿足商用,但是效果沒(méi)有通用TTS好。目前以科大訊飛為代表的人工智能企業(yè)具備成熟商用所需的技術(shù)能力。
情感TTS:隨著TTS技術(shù)的發(fā)展和數(shù)據(jù)量逐漸增多,業(yè)內(nèi)研究機(jī)構(gòu)逐步開啟了情感TTS合成技術(shù)研究。情感TTS系統(tǒng)的開發(fā)更加側(cè)重于自然語(yǔ)言處理方面,如“情感意圖識(shí)別”、“情感特征挖掘”等技術(shù)。情感TTS比傳統(tǒng)的TTS節(jié)奏性更強(qiáng),自然性也更好,但就應(yīng)用落地來(lái)說(shuō)還處于初步階段。
無(wú)論對(duì)于哪種TTS系統(tǒng)來(lái)說(shuō),在技術(shù)相差不大的情況下,聲優(yōu)質(zhì)量和數(shù)據(jù)量尤為重要。目前對(duì)于TTS系統(tǒng)來(lái)說(shuō)問(wèn)題之一是數(shù)據(jù)缺乏,尤其是個(gè)性化TTS對(duì)于數(shù)據(jù)量的要求更大,另一方面數(shù)據(jù)制作的周期長(zhǎng)和成本高,都對(duì)TTS數(shù)據(jù)生產(chǎn)提出了更高的要求。下文著重在TTS數(shù)據(jù)制作方面做出介紹。
3.TTS數(shù)據(jù)制作流程
3.1語(yǔ)料制作
語(yǔ)料制作環(huán)節(jié)需遵循覆蓋基本音素組合的原則,然后根據(jù)具體使用場(chǎng)景決定語(yǔ)料領(lǐng)域是否要有所偏重。語(yǔ)料的制作需要考慮語(yǔ)料來(lái)源、語(yǔ)料長(zhǎng)度和語(yǔ)料的量級(jí)。語(yǔ)料來(lái)源可通過(guò)爬取、造句等方式生成,之后經(jīng)過(guò)人工校對(duì)(去除拗口、有語(yǔ)病的語(yǔ)料),形成最終語(yǔ)料。語(yǔ)料的長(zhǎng)度不同任務(wù)要求不同,以中文TTS數(shù)據(jù)為例,單句的長(zhǎng)度在12-15字為宜。語(yǔ)料的數(shù)量要求主要取決于TTS系統(tǒng)的級(jí)別,簡(jiǎn)易的TTS系統(tǒng)要求數(shù)據(jù)量在3000-5000句之間,一般程度的系統(tǒng)需求數(shù)據(jù)量在15000句,更為高級(jí)的最低要求數(shù)據(jù)量就在20000句以上。
3.2錄音人挑選
傳統(tǒng)TTS對(duì)錄音人要求較高,目前隨著個(gè)性化TTS系統(tǒng)的需求量增大,TTS數(shù)據(jù)制作過(guò)程中錄音人為播音專業(yè)學(xué)生的最低要求也有所放寬,甚至普通人也能參與到數(shù)據(jù)制作中。錄音人的選取首先要基于TTS系統(tǒng)應(yīng)用語(yǔ)種(英文、普通話、方言等)、朗讀風(fēng)格(播音、正常說(shuō)話、童音、二次元等)和錄音人性別年齡分布劃定錄音人范圍。錄音人范圍確定后需要進(jìn)行錄音人的篩選工作,首先需要搜集錄音人信息及錄音小樣,經(jīng)過(guò)第一輪篩選挑出3-5人,然后在錄音棚實(shí)際錄音50-100句/人,最終經(jīng)過(guò)第二輪綜合篩選確定錄音人,整個(gè)過(guò)程至少需要3-4周。
3.3錄音環(huán)境
TTS數(shù)據(jù)對(duì)于錄制環(huán)境要求嚴(yán)格,需要在專業(yè)錄音棚中錄制并嚴(yán)格控制噪聲水平,最大限度還原發(fā)音人發(fā)音。錄音過(guò)程中需要有專業(yè)錄音師和監(jiān)聽人在場(chǎng),及時(shí)矯正錄音過(guò)程中的錯(cuò)誤(如:口水聲、噴麥、咂嘴等錄音人引起噪音,發(fā)音錯(cuò)誤,突發(fā)噪音等)。
3.4正式錄音
正式錄音開始前,監(jiān)聽人員需要跟錄音人磨合語(yǔ)速風(fēng)格,然后選擇2-3句錄音作為基準(zhǔn)參考發(fā)音,由現(xiàn)場(chǎng)監(jiān)聽人員把控,每錄20-30句向錄音人播放基準(zhǔn)參考發(fā)音。當(dāng)錄音人出現(xiàn)音質(zhì)變化時(shí),現(xiàn)場(chǎng)監(jiān)聽人員具有一票否決權(quán),并可隨時(shí)決定是夠繼續(xù)錄音。另外,為保證錄音質(zhì)量,原則上錄音人在錄音棚時(shí)間不能超過(guò)4小時(shí)。
3.5數(shù)據(jù)標(biāo)注
3.5.1文本標(biāo)注
文字標(biāo)注內(nèi)容根據(jù)發(fā)音人實(shí)際發(fā)音做一致性標(biāo)注,例如“1990-2-24”需要根據(jù)實(shí)際錄音轉(zhuǎn)寫成“一九九零年二月二十四日”。
3.5.2音素標(biāo)注
中文使用聲母韻母系統(tǒng)標(biāo)注,西文使用IPA進(jìn)行標(biāo)注。以中文為例,標(biāo)注效果為:
原句:腦袋大就聰明嗎?
音素:nao3 dai4 da4 jiu4 cong1 ming2 ma5?
音素標(biāo)注會(huì)遇到錯(cuò)讀、輕聲和連續(xù)變調(diào)等典型問(wèn)題,可基于下述方案解決:
讀錯(cuò)字:標(biāo)注時(shí)按照實(shí)際發(fā)音標(biāo)注;
輕 聲:標(biāo)注時(shí)按照實(shí)際發(fā)音標(biāo)注;
連續(xù)變調(diào):遵從普通話變調(diào)規(guī)則,一不變調(diào)、三三變調(diào)
3.5.3音素切分
按照實(shí)際語(yǔ)音情況,標(biāo)注出每個(gè)音素的起止時(shí)間點(diǎn),此處對(duì)于標(biāo)注員要求較高。
3.5.4詞性標(biāo)注
標(biāo)記每個(gè)字所屬詞的詞性,對(duì)于中文來(lái)說(shuō)基本有39中詞性,常見的有:a(形容詞)、m(數(shù)詞)、n(名詞)、ns(地名)、p(介詞)、j(簡(jiǎn)稱略語(yǔ))、d(副詞)等,標(biāo)注效果如下:
Eg:美國(guó)/ns 對(duì)/p 港/j 澳/j 政策/n 不/d 會(huì)/v 改變/v 。
3.5.5韻律標(biāo)注
韻律又稱超音段特征、節(jié)律或音律,包括節(jié)奏、強(qiáng)調(diào)、語(yǔ)調(diào)等。因?yàn)檠哉Z(yǔ)信息在時(shí)間線上是先后依次出現(xiàn)的,但實(shí)際上并不是線性平均分配,而是以層級(jí)形式分布的,所以韻律標(biāo)注一般包含四級(jí),分別為:韻律詞、弱韻律短語(yǔ)、強(qiáng)韻律短語(yǔ)、語(yǔ)調(diào)短語(yǔ)。
韻律詞:是韻律層級(jí)結(jié)構(gòu)中的基本單位,指口語(yǔ)中緊密連在一起發(fā)音的幾個(gè)音節(jié)的組合,單音節(jié)詞往往會(huì)跟相鄰的雙音節(jié)詞共同構(gòu)成一個(gè)韻律詞(如:“引起了”中的“了”,通常與前面的雙音節(jié)詞“引起”共同組成一個(gè)韻律詞),包含超過(guò)三個(gè)音節(jié)的詞,往往會(huì)被分解成多個(gè)雙/三音節(jié)韻律詞。不同韻律詞邊界不停頓或聽感不可察覺停頓。
弱韻律短語(yǔ):由一個(gè)或一個(gè)以上韻律詞構(gòu)成,每個(gè)弱韻律短語(yǔ)后有較短的停頓或靜音,發(fā)音方面具有音高不下傾或稍下傾的特點(diǎn)。另外韻末不可以用作句末。
強(qiáng)韻律短語(yǔ):由一個(gè)或多個(gè)弱音律短語(yǔ)構(gòu)成,每個(gè)強(qiáng)韻律短語(yǔ)后可以感知到明顯的停頓,音高曲線有明顯的下傾。
注意:增加層級(jí)會(huì)增加復(fù)雜度,所以有時(shí)候會(huì)將弱韻律短語(yǔ)和強(qiáng)韻律短語(yǔ)作為一個(gè)層級(jí)標(biāo)注
語(yǔ)調(diào)短語(yǔ):由一個(gè)或多個(gè)強(qiáng)韻律短語(yǔ)構(gòu)成,每個(gè)語(yǔ)調(diào)短語(yǔ)后會(huì)有較長(zhǎng)的停頓且末尾音節(jié)韻律上會(huì)有延長(zhǎng),這種短語(yǔ)一般位于句末,具有特定的語(yǔ)調(diào)模式。語(yǔ)調(diào)模式的音調(diào)走勢(shì)由具體的語(yǔ)氣或句型決定,如陳述句為降調(diào)、疑問(wèn)句為升調(diào)、感嘆句為總體音調(diào)上升。
為了更好地理解韻律標(biāo)注各個(gè)層級(jí)間的關(guān)系,我們可以下方關(guān)系圖:
4.TTS系統(tǒng)展望
目前,合成語(yǔ)音的可懂度、自然度已經(jīng)達(dá)到用戶可接受的程度,TTS系統(tǒng)也已進(jìn)入大規(guī)模產(chǎn)業(yè)化的應(yīng)用階段。隨著互聯(lián)網(wǎng)時(shí)代用戶對(duì)信息獲取途徑的多樣性需求,語(yǔ)音合成技術(shù)將迎來(lái)巨大的機(jī)會(huì)。例如:最近由Dessa開發(fā)出的RealTalk語(yǔ)音合成系統(tǒng),僅需要通過(guò)輸入文本即可生成堪比真人的聲音,也就是說(shuō)在獲得足夠訓(xùn)練數(shù)據(jù)的先決條件下,該系統(tǒng)可以復(fù)制任何人的聲音。這項(xiàng)技術(shù)可能是一個(gè)重大突破,這也預(yù)示著可能在未來(lái)的十幾年甚至幾年,技術(shù)可能發(fā)展到只要短短幾分鐘的音頻便可以模仿出任何一個(gè)人的聲音。
語(yǔ)音合成技術(shù)的發(fā)展,一方面取決于技術(shù)上的進(jìn)步,另一方面取決于商業(yè)化應(yīng)用能否擴(kuò)大市場(chǎng)。從技術(shù)上來(lái)說(shuō)情感語(yǔ)音合成、個(gè)性化語(yǔ)音轉(zhuǎn)換等是目前的研究方向,從市場(chǎng)角度出發(fā),如何開發(fā)出成熟的TTS應(yīng)用并獲得用戶認(rèn)可才是關(guān)鍵。
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。