“您好,某某客服,請問您是要谘詢什麼問題呢?”
“我點的外賣什麼時候可以送到?”
你有沒有給客服熱線打過電話?亦或是接到客服人員給你打來的電話?每天這樣的電話有上千萬通,在人工智能和智能語音技術的幫助下,大量的這種電話目前可以自動通過內呼和外呼機器人自動完成,幫助人們從大量的簡單重複勞動中解脫出來,投入到更有創造力的工作中去。特別是在疫情期間,智能外呼機器人可以完成大量的無接觸式遠程溝通服務,極大的提升信息獲取的效率和安全性。在這種智能對話係統的背後包括語音識別、語義理解、對話管理和語音合成等一係列核心技術。
語音合成是智能客服機器人中重要的技術環節
作為機器人對話係統的嘴巴,語音合成的自然度尤為關鍵。
語音合成又稱為文語轉換技術,是指一類將文本轉化語音的人工智能技術,是人工智能的一個經典研究問題。大家聽到的手機地圖導航音、手機和智能音箱上的虛擬助手的語音交互、公共場合的信息播報、AI有聲讀物等都是通過該項技術完成的。然而和上述應用相比,智能客服和外呼機器人應用場景落地對該項技術提出了更高的要求。在這些場景中,當人們聽到是事先錄製好的固定錄音或者機器味十足、字正腔圓的朗讀語音合成效果時,往往沒有耐心去聽完而直接掛電話,從而導致服務完成度不高。這對語音合成技術提出了更高的要求,需要高自然度、擬人化的技術。
語音合成技術架構
近日,通過產學研合作項目,西北工業大學計算機學院智能語音方向謝磊教授團隊與美團合作的“客服場景下的高自然度語音合成技術”成功上線美團智能客服和外呼機器人。該係統取代了先前讀音生硬的語音合成係統,通過自然擬人化語音生成,能夠大幅提升通話體驗的流暢性。通過美團測試團隊嚴格的AB測試,該技術的應用能夠使通話成功率相對提升15%以上。目前搭載該服務的美團內呼和外呼機器人月均調用量超過620萬次,極大地提升了溝通效率,降低了溝通成本,改善了用戶體驗。
如何才能研發出一套高表現力的語音合成係統,達到逼真的擬人化效果呢?標準的語音合成係統搭建流程包括:發音人選擇、錄音棚高質量語音數據錄製與標注、模型訓練和係統調優等繁瑣的過程。最關鍵的問題是為了進行品控,錄音棚錄製的發音人數據主要采用朗讀和風格模仿的方式進行,往往自然度不夠高,很難做到接近真人的逼真合成效果。另一方麵,發音人的選擇和數據錄製成本很高,錄音和係統搭建周期很長。
針對上述問題,謝磊教授帶領實驗室研究生楊豐煜等同學和美團的合作夥伴進行了深入的探索。他們首先想到的是:美團自身就有大量的真實的客服的語音數據。是否可以直接通過這些現有數據進行建模呢?這樣一來,建模數據來自真實客服,如果模型可以完美的學到真實客服的發音風格,就可以做到極高的語音合成自然度,同時節省了標準數據的高昂錄製與采購成本,而且極大的縮短係統搭建的周期。
真實客服數據與傳統音庫建模的對比
但是,正是因為客服人員工作環境不是在標準的安靜錄音棚,而是在多人同時工作的辦公環境中,因此數據采集質量不高,存在環境噪聲幹擾等問題。為了解決這一問題,謝磊教授團隊和美團合作者們設計了一套自動化數據篩選方案,通過語音檢測、聲紋識別、語音識別、聲學信號分析與過濾,有效地選擇出適合建模的目標客服發音人數據。
數據的問題解決,隨之而來的是新的問題。即便是采用篩選出來的數據,通過先進的深度學習技術進行建模,仍然合成語音仍然存在發音不穩定的現象。這是因為客服人員和客戶的自然對話往往存在很多難以建模的口語化現象,包括快語速、長停頓、延音等。為了更為準確的對這些口語化現象進行建模,謝磊教授團隊和美團合作者們提出了一套自動化檢測口語化現象的方法,對長停頓、延音等現象進行有效檢測,同時更新到語音合成建模的文本表示中,完美的解決了發音不穩定的現象。
客服場景下的高自然度語音合成建模流程
擬人化、自然度問題解決了,最後需要攻克的是音質問題。如果合成音質差,必然影響到用戶體驗。由於原始客服語音數據質量不高,現有神經聲碼器合成效果較差,因此需要更加魯棒的神經聲碼器才能合成穩定的聲音。為了解決這一問題,謝磊教授團隊研發了更加魯棒的神經聲碼器技術,通過改良需要預測的語音特征,實現了穩定自然的發音合成效果。經過雙方幾個月的共同努力,解決了上述幾個難點問題,該技術得以成功落地。
該技術的成功應用離不開校企合作的大力支持。2019年,謝磊教授團隊憑借雄厚的研究基礎與實力,入圍成為“美團科研合作計劃”合作夥伴,開展語音合成技術的前沿探索。實驗室研究生楊豐煜前往美團開展合作,圓滿的完成了合作任務。除上述成果落地外,雙方在小資源抗噪音色克隆上的最新研究成果“Data Efficient Voice Cloning from Noisy Samples with Domain Adversarial Training”發表在語音研究頂級會議Interspeech2020上,並在線進行了宣讀。
謝磊教授團隊獲得“美團科研合作計劃”支持
從堅同學在語音頂級會議Interspeech上宣讀與美團合作論文
在美團合作的楊豐煜同學(左二)參加公司團建
計算機學院音頻語音與語言處理研究組(ASLP@NPU)隸屬於空天地海一體化大數據應用技術國家工程實驗室。近年來,實驗室在張豔寧教授的帶領下,圍繞人工智能語音處理中的各種關鍵性問題取得了突出進展。僅僅在語音合成這一領域,在包括Interspeech在內的語音研究的頂級會議上發表論文20餘篇,研究成果應用於智能家居與穿戴、智能客服、語音助手、AI朗讀、語音玩具等多個方麵,產生了良好的經濟和社會效益。
實驗室語音合成技術落地多個產品
實驗室獲得語音頂級會議Interspeech2020競賽優異成績
圍繞國家“新一代人工智能”擬人化人機交互的重大需求,實驗室深入開展包括語音增強與分離、語音識別、語音合成、聲紋識別等在內的全鏈路智能語音處理技術。在多項語音技術國際評測中取得頂尖成績,包括今年語音頂級會議Interspeech深度噪聲抑製競賽(DNS)實時賽道第一名、非實時賽道第二名、Interspeech遠場聲紋挑戰賽(FFSVC)分布陣列賽道第二名的優異成績。入選《互聯網周刊》中國人工智能高校排行十大頂尖實驗室。
目前實驗室先後與包括騰訊、美團、華為、阿裏巴巴、搜狗、微軟、字節跳動、愛奇藝、百度、小米、快手、京東等在內的業界眾多企業開展廣泛深入、多層次的產學研合作。通過校企合作,最新的人工智能研究成果得到快速落地。
① 凡本站注明“稿件來源:beplay2網頁登錄”的所有文字、圖片和音視頻稿件,版權均屬本網所有,任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經本站協議授權的媒體、網站,在下載使用時必須注明“稿件來源:beplay2網頁登錄”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出於非商業性的教育和科研之目的,並不意味著讚同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯係。