知名網站Medium近日報道稱,百度研究院高級工程師Awni Hannun在參加國際神經網絡協(xié)會舉辦的會議中時提出了一種可識別普通話的新模型,該模型基于百度深度語音學習開發(fā),可實現(xiàn)普通話語音查詢功能,識別準確率高達94%。
普通話語音識別有兩個難點。第一則是字符數(shù)據(jù)量大。英文只有26個字母,但中文約有8萬個不同的字符。相比于英文,系統(tǒng)要在每次轉錄中直接輸出8萬個字符中的其中一個,如此龐大的數(shù)據(jù)量對于系統(tǒng)運算能力要求極高。為解決這一問題,研究團隊通過收集人們常用詞,篩選出有用的字符。這一方法提高了系統(tǒng)運算效率。
第二,在普通話的表述中,聲調的不同往往會改變一個詞的意思。且在傳統(tǒng)的語音識別中,設想所有的語音具有相同間距,以至于在轉錄時可以忽略它們。但這套理論卻無法轉譯普通話。普通話體系極為復雜,這就語音系統(tǒng)提出了更高的要求。百度通過特殊的語音識別渠道,省去了大量預處理環(huán)節(jié)來維持音頻的穩(wěn)定間距,再讓模型學習何種數(shù)據(jù)可以最有效的轉錄,這一做法大大降低了語音識別的難度。
在談及百度深度語音系統(tǒng)對比Skype翻譯的優(yōu)勢時,Hannum分析認為,百度的優(yōu)勢在于學習能力。每條音軌中包含三個模塊,即語音轉錄模塊、機器翻譯模塊和語音合成模塊。百度深度語音系統(tǒng)則不同于以往的語音轉錄系統(tǒng),它并沒有大量預處理環(huán)節(jié),而是直接輸入音頻文件,再通過深度神經網絡輸出字符。深度神經網絡則需要大量數(shù)據(jù),去學習哪些輸入信息可將語音轉譯成正確的普通話。與Skype不同,百度希望將該系統(tǒng)作為所有智能設備的語音接口,嵌入到可穿戴設備或語音識別應用中,而不僅僅將它定義為一款語音搜索產品。
Medium報道指出,深度學習作為該系統(tǒng)的核心,發(fā)揮了極其重要的角色。隨著機器翻譯和語音識別技術發(fā)展趨于成熟,人們更多的希望機器完成輸出任務。而深度學習系統(tǒng)的加入則在增加數(shù)據(jù)量的同時,簡化音頻軌道,通過不斷的學習將機器獲取的信息有效輸出。這也是Hannum看好深度學習的原因。
深度語音識別系統(tǒng)出色的成績背后是所有全中文數(shù)據(jù)超過10萬億次運算學習的成果。且該系統(tǒng)還在尋找更多的關于各地方言及口音的信息,擴大系統(tǒng)訓練數(shù)據(jù)。目前,該系統(tǒng)支持超過26萬億次浮點運算,可在幾天內完成深度語言的集中訓練,提高系統(tǒng)學習效率。數(shù)據(jù)集與學習效率的不斷完善將使百度深度語音識別系統(tǒng)在識別準確率進一步提升。
對于深度學習的未來,Hannum認為將該模型在更小的系統(tǒng)上運行是重要的趨勢之一。大量實驗表明,將現(xiàn)有的學習模型壓縮成小模型后,表現(xiàn)依舊穩(wěn)定。這將使深度學習系統(tǒng)植入手機等移動設備成為現(xiàn)實。
Copyright ? 2013-2021 河南云和數(shù)據(jù)信息技術有限公司 豫ICP備14003305號 ISP經營許可證:豫B-20160281