兩年前,IBM的研究人員聲稱,他們用機(jī)器學(xué)習(xí)系統(tǒng)訓(xùn)練了兩個(gè)公共語(yǔ)音識(shí)別數(shù)據(jù)集,取得了最先進(jìn)的轉(zhuǎn)錄性能。人工智能系統(tǒng)不僅要應(yīng)對(duì)訓(xùn)練語(yǔ)料庫(kù)音頻片段的失真,還要應(yīng)對(duì)一系列的演講風(fēng)格、重疊的演講、中斷、重啟和參與者之間的交流。
為了開(kāi)發(fā)一種更強(qiáng)大的系統(tǒng),這家總部位于紐約阿蒙克的公司的研究人員最近在一篇論文中設(shè)計(jì)了一種架構(gòu),該論文名為《人類和機(jī)器對(duì)英語(yǔ)廣播新聞?wù)Z音識(shí)別》(English Broadcast News Speech Recognition by Humans and Machines),將于本周在布萊頓舉行的聲學(xué)、語(yǔ)音和信號(hào)處理國(guó)際會(huì)議上發(fā)表。他們說(shuō),在初步實(shí)驗(yàn)中,它在播放新聞字幕任務(wù)上取得了行業(yè)領(lǐng)先的結(jié)果。
做到這一點(diǎn)并不容易。該系統(tǒng)本身也面臨著一系列挑戰(zhàn),比如帶有大量背景噪音的音頻信號(hào),以及主持人就各種新聞話題發(fā)表演講。雖然大部分培訓(xùn)語(yǔ)料庫(kù)的演講都很清晰,但其中包含了現(xiàn)場(chǎng)采訪、電視節(jié)目剪輯和其他多媒體內(nèi)容等材料。
正如IBM研究人員Samuel Thomas在一篇博客文章中所解釋的那樣,人工智能利用了長(zhǎng)短時(shí)記憶(LSTM)(一種能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系的算法)和聲學(xué)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,以及互補(bǔ)的語(yǔ)言模型的組合。聲學(xué)模型包含多達(dá)25層的節(jié)點(diǎn)(模擬生物神經(jīng)元的數(shù)學(xué)函數(shù)),它們通過(guò)語(yǔ)音譜圖或信號(hào)頻譜的視覺(jué)表示進(jìn)行訓(xùn)練,而六層的LSTM網(wǎng)絡(luò)學(xué)習(xí)了“豐富”的各種聲學(xué)特征,以增強(qiáng)語(yǔ)言建模。
在為整個(gè)系統(tǒng)提供1,300小時(shí)的廣播新聞數(shù)據(jù)后,研究人員將人工智能放進(jìn)了一個(gè)測(cè)試集,測(cè)試集包含6個(gè)節(jié)目的兩個(gè)小時(shí)數(shù)據(jù),總共有近100名重疊的演講者。(第二個(gè)測(cè)試集包含12個(gè)節(jié)目的四個(gè)小時(shí)廣播新聞數(shù)據(jù),大約有230名重疊的演講者。)該團(tuán)隊(duì)與語(yǔ)音和搜索技術(shù)公司Appen合作,對(duì)語(yǔ)音識(shí)別任務(wù)的識(shí)別錯(cuò)誤率進(jìn)行了測(cè)量,并報(bào)告說(shuō),該系統(tǒng)在第一組測(cè)試中達(dá)到6.5%,在第二次測(cè)試中達(dá)到5.9%,比人類的表現(xiàn)略差一些,分別為3.6%和2.8%。
托馬斯寫道:“(我們的)新結(jié)果……是我們?cè)谶@項(xiàng)任務(wù)中所知的最低水平,(但)在這個(gè)領(lǐng)域仍有新技術(shù)和改進(jìn)的空間。”
原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/
來(lái)源:venturebeat