因為人類語言不通,《聖經》故事中的“巴別塔”沒能建成,以失敗告終。如何打破人類語言之間的圍牆,讓人類能無障礙溝通,也成為了人類一直希望解決的問題。
得益於統計和深度學習技術,讓機器理解語言,進而實現不同語言的無縫溝通,正逐漸成為可能。
在今年《MIT科技評論》推出的十大突破技術中,巴別魚耳塞成功入選。它可以做到雙方交流時,會對所講的話進行翻譯,並在智能手機上大聲播放。手持手機的人回應後,回答被翻譯,然後在耳塞中播放,該技術還能實時翻譯,適用於多種語言,使用方便。
工業界對於機器翻譯已經開始摩拳擦掌。近日,微軟宣布自己的機器翻譯係統達到了人類專業翻譯的水平。穀歌、百度、Facebook,包括其他一些科技公司也都在布局機器翻譯,並推出了在線翻譯係統。
可見,隨著技術的發展,機器翻譯在教育、旅遊、社交、跨境交易等領域將有更大的應用空間。那麼,機器翻譯究竟是如何對人類語言進行“理解”,進而進行翻譯輸出的;如果機器翻譯水平越來越高,從事語言翻譯的人是否會因此丟了工作;如果人類之間的語言障礙被清除,那時候的世界又會是什麼樣的?
機器翻譯的三大飛躍
微軟技術院士黃學東告訴澎湃新聞(www.thepaper.cn),機器翻譯達到目前的水平,經過了幾十年的發張,並經曆了三次飛躍。
早在1954年,人類就開始嚐試過讓機器能識別人類的語言,但直到上世紀80年代,才有人摸索出方法。當時,IBM做了研究,利用一些規則方法,句法分析,語意分析等傳統方法讓機器看懂人類語言。但由於當時的人工智能發展處於“凜冬時期”,效果一直不好,翻譯質量也一直上不去。
機器翻譯的第一個飛躍也是IBM做出的。IBM的研究人員用了統計的方法來做機器翻譯。那時,語音識別從傳統的人工智能方法專家係統轉為統計學習的方法,尤以隱馬爾科夫模型為代表。統計學方法的應用讓機器翻譯在上世紀90年代有了質的飛躍。
進入21世紀,機器翻譯迎來了自己的第二次飛躍。這次的進步主要依靠深度學習神經網絡的方法。這種方法也稱為神經機器翻譯(Neural Machine Translation),這個技術先是用到了語音識別中,再推廣到圖像識別和機器翻譯上。
神經機器翻譯,簡要的說,就是對源語言的句子進行編碼,即轉化為計算機可以“理解”的形式,編碼的結果會形成很多隱含變量,每個隱含變量代表從句首到當前詞彙為止的語義信息。然後通過一個解碼的過程,一個詞、一個詞輸出譯文。
到了2018年,由微軟亞洲研究院與雷德蒙研究院研發的機器翻譯係統,解決了NMT方法的一些局限,並借鑒了人類翻譯過程中的一些方式。例如:對偶學習(Dual Learning)、推敲網絡(Deliberation Networks)、一致性規範(Agreement Regularization)、聯合訓練(Joint Training)等,讓機器翻譯水平得到了大大提升。
從機器翻譯的三次飛躍上不難看出,一家公司構建的翻譯係統效果如何,主要取決與兩點:一是算法是否足夠好,二是數據是否夠全、夠多。
這樣看,對於微軟、穀歌、百度等大公司來說,他們有足夠優秀的人才來搭建神經網絡,也有足夠多的搜索數據可供自己搭建的網絡進行訓練。國內的科大訊飛和搜狗公司,由於本身在語音識別上有較長時間的積累,自然語言資料庫上有優勢。
人類會被機器替代,機器翻譯能否改變世界?
機器翻譯技術領域的進步,也讓人們看到了消除語言鴻溝,構建“巴別塔”的新希望。但這樣的突破也引發了部分人的擔憂:人類是否會被機器替代?
關於這個問題,黃學東在接受澎湃新聞采訪時稱,舉了一個馬車與汽車的例子。當汽車被發明出來的時候,英國為了保障馬車夫的生存,曾立法規定汽車行駛速度不能超過馬車。盡管最後馬車還是被淘汰了,但是出了很多司機,產生了新的職業。
“所以很多事情不用擔心。其實我們隻是把很多枯燥的工作讓計算機做了。就像以前是打字機,現在有計算機,現在計算機寫出來的文章想修改都很方便。30年前你要寫一篇文章,打錯了,得讓秘書用修改液去塗,但現在機器解放了秘書的工作,而他們也沒有消失,隻是去做更複雜,更專業的工作了。”黃學東說。
實際上,大多數的專業公司不但不擔心自己的放碗會被搶走,甚至還非常擁抱技術帶來的便利。
美國語言公司協會與歐洲語言行業協會首次發布的“2015語言行業調查報告”稱,大多數公司在調查機器翻譯帶來的影響的時候,都選擇了“顯著影響”(5分權重下選擇4或者5),表明機器翻譯技術已經開始發揮作用。這份報告還指出,在2014年,大量歐洲公司已經開始使用機器翻譯,美國公司有21%的項目用到了機器翻譯,為有史以來最高值。機器翻譯係統也越來越普及,50%的歐洲公司和36%的美國公司擁有機器翻譯引擎。
值得注意的是,該報告是基於對歐美主流中小翻譯公司得出的結果,可見除了日常使用,機器翻譯已經在專業翻譯領域發揮著越來越大的應用。
這樣的市場也讓許多科技公司看到了價值,包括穀歌、微軟、Facebook、百度、科大訊飛、搜狗等公司都已紛紛布局翻譯機。
目前,穀歌已經開發出了耳機Pixel Buds,可以實時翻譯,並存儲有40種語言,使用時就像有名翻譯家在你耳邊說悄悄話。隻是,這款耳機還隻能和Pixel智能手機聯用。
微軟也積極布局,除了開發有自己的小冰係統外,微軟近期還與小米合作,推出了魔芋AI翻譯機。它用了微軟的認知服務技術,就像iPod一樣,有一個雙鍵,可以做遠場翻譯,支持60種語言的機器翻譯,並整合了智能助理。
國內公司對於巨大的消費市場也是虎視眈眈。科大訊飛和搜狗均在去年推出了自己的手持翻譯機。科大訊飛的曉譯翻譯機支持5種語言翻譯,具備離線功能和即時翻譯。搜狗翻譯機支持離線翻譯和拍照識別翻譯。
在機器翻譯技術的支持下,各家公司布局的翻譯機紛至遝來,可以預見的是,機器翻譯在教育、旅遊、社交、跨境交易等領域有著巨大的應用空間。信息技術的進步在不斷的降低人們的溝通成本,當機器翻譯進步到可以替代專業翻譯,我們是不是可以拾起《聖經》中的想象:一個能讓不同語言的人無縫溝通的世界會在不遠的將來到來?
① 凡本站注明“稿件來源:beplay2網頁登錄”的所有文字、圖片和音視頻稿件,版權均屬本網所有,任何媒體、網站或個人未經本網協議授權不得轉載、鏈接、轉貼或以其他方式複製發表。已經本站協議授權的媒體、網站,在下載使用時必須注明“稿件來源:beplay2網頁登錄”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出於非商業性的教育和科研之目的,並不意味著讚同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯係。