日韩午夜av电影,精品日产卡一卡二卡麻豆,国产探花在线精品

谷歌發(fā)布Tacotron 2: 能更簡單地訓(xùn)練AI學(xué)習(xí)演講智能

新浪科技 2017-12-20 16:46

分享到：

導(dǎo)讀

北京時間12月20日午間消息，谷歌目前在人工智能語音技術(shù)方面處于領(lǐng)先，而這樣的領(lǐng)先優(yōu)勢很可能得到進(jìn)一步鞏固。谷歌周三發(fā)布了Tacotron 2。這是一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新方法，可以在幾乎沒有任何語…

Tacotron 2

北京時間12月20日午間消息，谷歌目前在人工智能語音技術(shù)方面處于領(lǐng)先，而這樣的領(lǐng)先優(yōu)勢很可能得到進(jìn)一步鞏固。谷歌周三發(fā)布了Tacotron 2。這是一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新方法，可以在幾乎沒有任何語法專業(yè)性的情況下從文本中生成演講。

這項新技術(shù)利用了谷歌此前在語音生成方面最強大的兩種技術(shù)：WaveNet和第一代Tacotron。

WaveNet每次能生成一段講話音頻。盡管效果很好，但WaveNet需要用到大量關(guān)于語言的元數(shù)據(jù)，包括發(fā)音，以及已知的語言特征等等。Tacotron則綜合了更多高級特性，例如語調(diào)和韻律，但并不能生成最終的演講音頻。

Tacotron 2結(jié)合了以上兩者的優(yōu)勢，或許已經(jīng)發(fā)揮出了當(dāng)前技術(shù)專業(yè)性的極限。Tacotron 2使用文本和文字?jǐn)⑹鰜碛嬎闼姓Z言規(guī)則，而不再需要人工明確告知系統(tǒng)規(guī)則。文本本身被轉(zhuǎn)換為Tacotron風(fēng)格的“梅爾頻譜”，實現(xiàn)節(jié)奏和強調(diào)。而單詞本身則基于WaveNet風(fēng)格的系統(tǒng)來生成。

由此產(chǎn)生的音頻比以往更好。演講的節(jié)奏感很好，但對于不太直觀的單詞，發(fā)音可能有問題。這或許是由于，單詞的來源不是美式英語，這樣的單詞包括Decorum和Merlot。研究者表示：“在極端情況下，可能會隨機產(chǎn)生奇怪的噪聲。”

此外，盡管口音和其他語言細(xì)節(jié)可以通過與WaveNet的交流而輸入，但仍然沒有任何方式去控制演講的語調(diào)情緒，例如樂觀或擔(dān)憂。

降低系統(tǒng)訓(xùn)練障礙意味著可以訓(xùn)練更多更好的系統(tǒng)。研究人員已經(jīng)將研究成果提交至IEEE國際聲學(xué)語音和信號處理大會，論文已發(fā)表至arXiv。

來源：新浪科技作者：李麗

Tacotron 演講系統(tǒng) WaveNet 語言

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。

觀點約架