近日,清華大學集成電路學院任天令教授及合作團隊在智能語音交互方麵取得重要進展,其研發的可穿戴人工喉可以感知喉部發聲相關的多模態機械信號以用於語音識別,並依靠熱聲效應播放對應的聲音,研究結果為語音識別與交互係統提供了一條新的技術途徑。
圖1. 基於智能可穿戴人工喉的語音交互範式
語音是人類交流的重要方式,但說話人的健康狀態(例如神經疾病、癌症、外傷等原因導致的聲音障礙)和周圍環境(噪音幹擾、傳播介質)往往會影響聲音的傳輸和識別。研究人員一直在改進語音識別和交互技術以應對微弱的聲源或嘈雜的環境。多通道聲學傳感器可以顯著提高聲音識別的精度,但會導致更大的設備體積。而可穿戴設備能夠獲取高質量的原始語音或其他生理信號。然而,目前尚無充分的證據表明喉部肌肉的運動模式和反映在體表的發聲器官振動中隱含著可識別的語音特征,且尚無實驗證明其作為語音識別技術的完備性。
圖2. 人工喉器件設計和性能表征
圖3. 人工喉器件與麥克風采集的語音信息標注和共振峰特征分析
為解決這一問題,任天令團隊成員開發了一款基於石墨烯的智能可穿戴人工喉(AT),同商業麥克風和壓電薄膜相比,人工喉對低頻的肌肉運動、中頻食管振動和高頻聲波信息有很高的靈敏度(圖1、圖2),同時也具有抗噪聲的語音感知能力(圖2)。對聲學信號和機械運動的混合模態的感知使人工喉能夠獲得更低的語音基頻信號(圖3)。此外,該器件還可以通過熱聲效應實現聲音的播放功能。人工喉的製作過程簡單、性能穩定、易於集成,為語音識別和交互提供了一種新的硬件平台。
圖4. 人工喉語音識別性能
團隊還利用人工智能模型對人工喉感知的信號進行語音識別和合成,實現了對基本語音元素(音素、聲調和詞語)的高精度識別,以及對喉癌患者模糊語音的識別與再現,為聲音障礙者的溝通和交互提供了一種創新的解決方案。實驗結果表明,人工喉采集的混合模態語音信號可以識別基本語音元素(音素、音調和單詞),平均準確率為99.05%。同時人工喉的抗噪聲性能明顯優於麥克風,在60dB以上環境噪聲下仍能保持識別能力。任天令研究團隊進一步演示了它的語音交互式應用。通過集成AI模型,人工喉能夠識別一名喉切除術患者模糊說出的日常詞彙,準確率超過90%。識別出的內容被合成為語音在人工喉上播放,可以初步恢複患者的語音交流能力。
圖5. 使用智能可穿戴人工喉進行無聲語音交互
該人工喉還有很大的優化和拓展空間,例如提高聲音的質量和音量,增加語音的多樣性和表情,以及結合其他生理信號和環境信息實現更自然和智能的語音交互。研究團隊希望通過進一步的研究和合作,讓人工喉造福更多的聲音障礙者和語音交互的用戶。
該成果以“使用可穿戴人工喉的混合模態語音識別與交互”(Mixed-modality speech recognition and interaction using a wearable artificial throat)為題,於2月24日在線發表在《自然》(Nature)人工智能子刊《自然·機器智能》(Nature Machine Intelligence)上。
論文通訊作者為清華大學集成電路學院任天令教授、田禾副教授、楊軼副教授和上海交通大學醫學院羅清泉教授,清華大學集成電路學院2019級博士生楊其晟、上海交通大學醫學院2019級博士生金偉秋為共同第一作者。該項目得到了國家自然科學基金委、科技部、教育部霍英東基金、北京市自然基金委、清華大學國強研究院、清華大學佛山先進製造研究院、清華大學-豐田聯合研究院、清華-華發建築光電子技術聯合研究院等的支持。
① 凡本站注明“稿件來源:beplay2網頁登錄”的所有文字、圖片和音視頻稿件,版權均屬本網所有,任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經本站協議授權的媒體、網站,在下載使用時必須注明“稿件來源:beplay2網頁登錄”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出於非商業性的教育和科研之目的,並不意味著讚同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯係。