|
|
人工智能翻譯究竟能不能替代同聲傳譯員同聲傳譯短期內難以被人工智能替代 近幾年來,隨著人工智能在各個領域的大展身手,大有席卷一切行業的勢頭;曾幾何時,各大國際會議都能見到某飛或者某度的人工智能同聲翻譯程序,有時候會議組委會也有興趣趕一下人工智能的時髦,但是每當會議開始之后,與會嘉賓無不忍俊不禁,開始從錯誤翻譯中找樂子,往往把嚴肅的國際會議開成一場朋友圈曬“人工低能”的災難秀。到了這個時候,會議組織方不是關掉人工智能程序,就是緊急全城搜羅同聲傳譯員現場救急,這種現象已經司空見慣,各大會議組織方開始主動遠離人工智能翻譯。
說到這里,我們不禁要問,固然人工智能翻譯尚不成熟,但是我們還要多久可以用上能和人力媲美的人工智能翻譯產品,尤其是人工智能同聲傳譯呢? 筆者作為翻譯行業十年的資深從業者,現在就從幾條方面談一談。 一,人工智能翻譯究竟是不是智能? 人工智能歸根接底,是一種程序化處理大數據的能力。 程序化首先要求有合理的建模,無論是云計算還是神經元計算,都是一種迭代了的計算方式,遠不是*終***的建模方法,無論是數學的新進展,還是腦科學的新發現,都極易對這一*新方式產生迭代的影響。 而大數據,尤其是翻譯大數據,有賴于近20年的數據積累,中外各方都積累的大量的中英語料,并通過上述程序化的語言分析比對,實際上包括谷歌微軟百度都能在書面翻譯上達到相當理想的成績,很多參考級別的翻譯都可以通過人工智能翻譯做個大概,要求不高的話,勉強用用也是可以的。當然作為正式商用,還是需要人工校對整理才能交稿。 綜上所述,目前人工智能翻譯充其量只是大數據的利用。高度依賴程序建構和語料的精確程度。 二,語音識別技術是不是智能? 和翻譯一樣,對于計算機來說,一段音頻的解碼到文字的輸出,也是高度依賴程序建模和語音訓練,這些年大數據工程師和語音訓練師是大熱行業,各大公司都希望自己的技術能獨步天下,用的無非也是增加數據輸入來提高準確度;任何一個人工智能語音識別服務器集群的受訓語音引擎的輸入量都遠超作為個人的同聲傳譯員,其數量級可能達到幾萬倍之多,但是充其量仍然是一個填鴨教學,語音引擎是一個好學生,但絕對不是一個聰明的學生。因為人的大腦根本就不是那樣工作的,所以陳天橋直接略過人工智能的一切,直取腦科學,是有他深刻的思考的。 三,人工智能同聲傳譯在現階段是什么? 現階段的人工智能同聲傳譯就是語音識別技術乘以人工智能翻譯,為什么是乘以,因為如果語音識別的準確率是80%,翻譯的準確率是80%,那么人工智能同聲傳譯的準確率只有64%,這還是相當理想的狀況,如果遇到口音問題,或者現場音響設備狀況不佳,甚至是會議內容的艱澀,或者發言稿的用詞高雅,人工智能恐怕要胡說八道不知所云了。 近些年國內各大廠在語料問題上大傷腦經,努力收編各大語料庫,作為一些老牌的翻譯公司手上的幾億字的中外文對照稿,突然成了香餑餑,開始做起了語料生意,這是值得肯定的,大數據躺在那里不會產生價值,可利用產生價值,是好事,一來增加收入,而來降低了人工智能前期訓練的成本。但是這里也蘊含了一個風險,這些語料的準確程度如何,語言對的方向有沒有用錯,大量中式英文和蹩腳的英中翻譯是不是也進入了人工智能的大腦?用粗劣的語料能教出一個好的人工智能翻譯家嗎?一些高精尖的前沿知識,有現成的語料嗎? *后總結一下吧,在未來的幾年里,一些大眾化的簡單的會議,再現場音響條件不錯的情況下,人工智能同聲傳譯在中英方向上會有良好的表現。但是英中部分,由于英文語音識別引擎的問題,各國與會人員口音的問題,表現仍將遠不能滿足一般會議要求。在專業性會議及小語種會議上,人工智能同聲傳譯仍將是笑料一般的存在,未來20年內看不到改善的跡象,除非腦科學結合量子計算有重大突破。腦科學和量子計算的結合是真正的人工智能,我們這一代人或許可以看到那一天的到來,到那一天,沒有人會再討論翻譯,因為人們打個照面就交流好了,不再有語言的隔閡,世界也真正統一成了全球村,也沒有了各國諸侯的割地自肥,大家討論的恐怕都是長生不老,精神世界的永存吧。 |