圖片來源:Pexels
*本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。
Google Pixel Buds的發(fā)布震驚了不少人。
每個人都期望戴上這樣的翻譯耳機,猶如獲得科幻小說《銀河系漫游指南》中的“巴別魚”,從此再無跨語言帶來的隔閡與障礙——一切輕而易舉。
也有人為歷史進程中的翻譯工作者擔心,他們看起來即將失去養(yǎng)家糊口的手藝。
不過這并未引起安妮的擔憂,尤其是剛參與完一項語言翻譯數(shù)據(jù)集工作后,她知道歷史變革并沒有那么簡單,至少沒有很多人想象中的那樣輕而易舉,還有大量的工作要做,還有很長的路要走。
沒錯,正是這些“要被機器替代的人”,現(xiàn)在正在幫助機器變得更聰明。
△ Google翻譯耳機Pixel Buds
專八“數(shù)字工人”
安妮是從事中英翻譯的全職工作者,持英語專業(yè)八級證書,中英口語流利、切換自如,擁有多年翻譯經(jīng)驗。
在過去6個月里,她和團隊都在參與完成一項全新的工作:參與一個名為“AI Challenger”比賽的英中翻譯數(shù)據(jù)集打造。
當搜狗公司表述完訴求時,安妮意識到這不僅是一項全新的工作,也會是一個極具挑戰(zhàn)的任務:
最長6個月時間,1200萬口語句對清洗、標注和檢查,堪稱時間緊、任務重,數(shù)據(jù)質量要求高。
最終,包括安妮在內(nèi),團隊中共有60多人參與,夜以繼日,才在AI Challenger上線前完成了交割。
△ 搜狗CEO王小川在AI Challenger
在AI Challenger中負責英中翻譯數(shù)據(jù)集的搜狗,也隨之松了一口氣。搜狗之前有機器翻譯數(shù)據(jù)和數(shù)據(jù)集方面的經(jīng)驗,但1000萬數(shù)量級的口語翻譯數(shù)據(jù)集,尚屬第一次,也無國內(nèi)外直接經(jīng)驗可參照,完全是開創(chuàng)性的。
搜狗方面透露,這個數(shù)據(jù)集的耗資超過了上百萬元人民幣,但成本還不是首要問題,因為即便有錢也遭遇了接單危機——不少數(shù)據(jù)標注公司在聽完訴求后拒絕了這一大單,如此時間緊任務重要求高的工作,實在太損耗人了。
經(jīng)過多家對比,一家譯員規(guī)模較大的公司才進入搜狗視野,更利好的是,他們曾經(jīng)有過類似數(shù)據(jù)檢查和處理的經(jīng)驗。
這也就意味著,為這次翻譯數(shù)據(jù)集扮演“數(shù)字工人”角色的,是一群持有英語專業(yè)八級證書、口語流利、擁有多年翻譯經(jīng)驗的人。
工作的內(nèi)容也不輕松。安妮向量子位介紹說,整個流程包含“采集”、“清洗”和“檢查標注”三部分,其中她們核心參與的是“檢查標注”,通過純?nèi)斯さ姆绞街鹁錂z查標注。
不過數(shù)據(jù)進入檢查標注之前,也耗費了搜狗工程師不少精力。
他們首先需要從網(wǎng)絡上抓取來自于英語學習網(wǎng)址等含有中英對照文本的網(wǎng)頁數(shù)據(jù)。然后對不同來源的網(wǎng)頁數(shù)據(jù)進行處理,對原始的網(wǎng)頁文件進行去除HTML標簽,提取文本數(shù)據(jù),并對齊中英文文本,得到中英文對照的數(shù)據(jù)之后,還需要進行數(shù)據(jù)噪音去除等清洗工作。
安妮說整個檢查標注的工作開始前,這是一份包含1200萬句對的數(shù)據(jù),聽起來只是一個數(shù)字,每一個句對卻都需要耗費心血。其中相對簡單的是一些短句,因為缺失上下文而導致語義難以判斷,就可以快速排除掉,在整個工作結束后,她們排除的這樣句對,規(guī)模高達200萬。
這也讓專八翻譯安妮對AI有了更進一步的認知,之前有人大談AI將帶來怎樣的失業(yè)浪潮,其后又有不少“人工智障”的段子流傳于圈內(nèi)。
在盲目樂觀和盲目悲觀之間,安妮知道“巴別魚”還需要很長的時間,需要像她一樣的專業(yè)八級翻譯員更辛苦地工作。
她自嘲數(shù)據(jù)集的工作確實會有一種數(shù)字工廠流水線工人的即時感,但她同時認為參與這樣一項工作也是一種榮幸——如果能夠通過AI Challenger的比賽誕生更好的算法和產(chǎn)品,能夠打破語言帶來的溝通鴻溝,未嘗不是一件好事。
安妮說,從未想過自己竟然也能參與到科幻小說展現(xiàn)的美好圖景中,那本大學時讓她著迷的《銀河系漫游指南》,現(xiàn)在似乎在無限接近實現(xiàn),她感到幸運,“很多時代的人只能通過想象,但我們正在經(jīng)歷?!?/p>
然而,時代之幸背后,還需要更辛苦的“人工”付出,因為語言翻譯數(shù)據(jù)集,并不簡單。
這種不簡單,清華大學計算機系的劉洋博士深有體會。
△ 清華大學劉洋博士
語言數(shù)據(jù)集之困
劉洋是清華大學計算機系副教授,也是中國中文信息學會青年工作委員會主任、計算語言學專業(yè)委員會秘書長,他向量子位介紹了目前機器翻譯領域數(shù)據(jù)問題的一般解決方法。
主要是購買。
在文本領域目前最有名的機構是語言資源聯(lián)盟(LDC),其中涵蓋了很多文本、語音方面的數(shù)據(jù),由于LDC成立時間早,還與美國NIST組織的各項評測關聯(lián),于是機器翻譯、語言識別、文本處理和信息檢索,最早都要依靠LDC的數(shù)據(jù)集來展開。
但LDC數(shù)據(jù)集的核心問題在于購買和版權限制,不能隨便轉讓,開放性上的局限會相應造成研發(fā)上的局限。
這也成了歐洲主導的WMT評測影響力日隆的原因,尤其是深度學習狂飆突進之后。
WMT發(fā)起之時,歐盟主導推出了兩大免費公開項目,一個叫EU matrix,另一個叫EU matrix ++,他們把歐盟的一些政府文檔作為數(shù)據(jù)源,其中的多國語言對比版本,是現(xiàn)成的高質量的機器翻譯數(shù)據(jù)集。
但即便已經(jīng)解決了開放的問題,歐盟數(shù)據(jù)集可能還算不上圖像領域ImageNet一樣的“經(jīng)典”,這由語言翻譯的特殊性決定。
核心是成績評價標準。
機器翻譯生成譯文都有多種可能性,好比人類中一千個哈姆雷特翻出一千種譯文,用詞、文采到句式結構,可能都不盡相同。所以這就給機器翻譯的評判造成難題,理論上要求多個標準答案來參考,但現(xiàn)實中具體操作并不容易。
舉例來說,現(xiàn)在歐盟數(shù)據(jù)只有一個標準答案,NIST數(shù)據(jù)集有4個標準答案,而日本組織的口語評測則達到了16種……歐盟的數(shù)據(jù)最核心的優(yōu)勢在于開放,使用者眾,影響力廣泛。
除了算分標準上的完善,成為語言翻譯領域的經(jīng)典數(shù)據(jù)集,還有三個方面的維度。
一是是否被各個重要的評測所采用,作為指定數(shù)據(jù)集,質量上獲得廣泛認可;
二是該領域重要文論的實驗結果產(chǎn)生中,采用了什么樣的數(shù)據(jù)集;
三則是數(shù)據(jù)量上,數(shù)據(jù)集本身支持的語言語種、規(guī)模大小,以及覆蓋領域等,也是重要評價因素。
比如想要實現(xiàn)工業(yè)級、產(chǎn)品級應用的機器翻譯系統(tǒng),可能得有上千萬甚至上億級別的句對,一個句對的平均句長在30-40詞左右。
還有語言均衡和領域均衡的問題。語言均衡主要是語種,可能中英、英法這樣的很多,但中越、中文阿拉伯文這樣的數(shù)據(jù)就相對較少,語言語種上不均衡。
另外是領域方面,不少數(shù)據(jù)集最早的來源都是政府網(wǎng)站,或者聯(lián)合國官方文件,但如果不是交往密切,或者非聯(lián)合國官方語種,可能數(shù)據(jù)就會受限,遑論書面文件之外的口語數(shù)據(jù)集打造了。
不過核心中的核心,還在于開放性,這是語言數(shù)據(jù)集的關鍵所系、是長遠生命力的關鍵所在。只有開放,才能有源源不斷的補充和研究反饋。
所以在劉洋博士看來,此次AI Challenger也是中國在經(jīng)典語言數(shù)據(jù)集打造方面的一次機會。
此次打造的口語領域英中雙語對照數(shù)據(jù)集,之前科研界并不容易得到,更多還需要與企業(yè)合作,不過由于涉及商業(yè)保密和知識產(chǎn)權,也會多處受限。
但企業(yè)從工業(yè)界獲取的數(shù)據(jù),又是科研理論成果的保障,比如購買LDC數(shù)據(jù)集也能用來在某個小領域得出不錯的結果,可一旦進入更大的領域,就會出現(xiàn)不work的情況,這也是之前翻譯領域科研成果和企業(yè)應用不能很好銜接的原因。
實際上,推動科研和企業(yè)數(shù)據(jù)結合,也是當前技術瓶頸的內(nèi)在需求。
十年前Google在機器翻譯領域曾有較為知名的一個結論,稱數(shù)據(jù)集規(guī)模每翻一倍,它自動評價的指標就能夠提升0.5個百分點。
這在當時給了機器翻譯的從業(yè)者們無限信心,因為只要不斷擴展數(shù)據(jù)集規(guī)模即可,Google這樣的搜索公司,數(shù)據(jù)又怎么會成為大問題,然而十多年過去了,即便翻譯精度和準確度不斷提升,卻還是在當前進入緩慢增長階段。
劉洋博士認為,已經(jīng)到了一個算法躍遷的時刻,如果沒有算法上的新突破,可能一味拓展數(shù)據(jù)也難以獲得質的突破。這在深度學習浪潮中已經(jīng)得到驗證,現(xiàn)在同樣需要復制科研和企業(yè)聯(lián)動解決問題的經(jīng)驗。
所以這也是AI Challenger難能可貴之處,至少在數(shù)據(jù)開放和推動算法躍遷方面邁出了第一步,其間過程中,甘苦冷暖,也只有參與者才能體味。
搜狗市場方面的人士告訴量子位,這完全就是一份苦活累活,除了不計成本地投入上百萬元,還要完成數(shù)據(jù)資源開放、內(nèi)部專門配合等工作,光對接標注及檢查一項,就讓他們在今年持續(xù)跟進了6個月左右的時間——眾所周知,今年搜狗還有IPO上市的大事件要做。
然而,一切辛苦在數(shù)據(jù)集推出后也獲得了回報,參賽選手反饋:1000萬句對規(guī)模的口語中文翻譯,一開始期望在規(guī)模上,沒料到質量也如此之高。
當然,如果參賽選手如果知道這1000萬句對內(nèi)后,每一句都有一位至少持有專八資格的資深翻譯人員,可能就不會太過“意料之外”了。
也難怪在AI Challenger大賽發(fā)布會上,AI Challenger執(zhí)行委員王詠剛談到語言數(shù)據(jù)集時的“動情一瞬”。
“這將是下一個AlphaGo,下一個AI里程碑事件,我們希望在中國、在AI Challenger試一試。”
OMT:參賽選手建議
最后,作為此次AI Challenger挑戰(zhàn)賽的評委,劉洋副教授也談到了選手評分參考,以及對首次參賽選手的建議。
劉洋博士認為,一般參與評測的大標準是最后的成績,而成績評分方法有兩種:
一種是自動評判,即看專業(yè)人士結果與機器算法產(chǎn)生結果的相似度,相似度越高,系數(shù)越好;
另一種是人工評判,由專業(yè)人士對機器算法結果進行直接評定,這種方法在當前更具精準性。
不過還有另外的維度去評判AI Challenger這樣的挑戰(zhàn)賽,評委會更看重創(chuàng)新性,是否使用一些創(chuàng)新方法簡化了流程,或者在細節(jié)的數(shù)據(jù)處理、參數(shù)調(diào)節(jié)上可以做得更細致,都會讓人眼前一亮。
而對于哪些首次參與類似比賽的同學,劉洋博士也有關于數(shù)據(jù)集使用方面的建議。
首先是需要“精心挑選”,把所有數(shù)據(jù)都用上不一定是明智之舉,這其中會考察選手的很多能力,比如數(shù)據(jù)集選取、數(shù)據(jù)集質量判斷、任務適應度和匹配度判斷等方面的能力。
“如果最終任務是新聞,你拿法律相關的數(shù)據(jù)是沒有太多幫助的,所以選擇用什么樣的數(shù)據(jù)集反而非常重要?!?/p>
其次是對于數(shù)據(jù)的處理很關鍵。很多人以為評測成績的最終決定于大方法,但其實很多情況下成績是由細節(jié)上的選擇和處理決定的,比如中文怎么分次、英文怎么做、轉成什么,全半角要不要做轉換、各種各樣的符號等,這種細節(jié)上對于翻譯錯誤的影響是非常大的,有些時候是很多新手想象不到。所以,參賽選手要在前處理方面做很多細致的工作。
最后是參數(shù)調(diào)節(jié)上??赡艽舜伪荣惡芏噙x手都會使用神經(jīng)機器方法和深度學習的方法,但其中也有不少“坑”,涉及到參數(shù)調(diào)節(jié)的能力,可能同一個系統(tǒng),不同人就會跑出不同的效果,這也是一個不斷積累經(jīng)驗的過程。
當然,希望AI Challenger也能幫助選手不斷實現(xiàn)能力提升,一起實現(xiàn)我們在翻譯領域的終極目標。
本文轉自微信公眾號“量子位”,作者李根。
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。