圖片來源:Pexels
*本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
Google Pixel Buds的發(fā)布震驚了不少人。
每個人都期望戴上這樣的翻譯耳機(jī),猶如獲得科幻小說《銀河系漫游指南》中的“巴別魚”,從此再無跨語言帶來的隔閡與障礙——一切輕而易舉。
也有人為歷史進(jìn)程中的翻譯工作者擔(dān)心,他們看起來即將失去養(yǎng)家糊口的手藝。
不過這并未引起安妮的擔(dān)憂,尤其是剛參與完一項(xiàng)語言翻譯數(shù)據(jù)集工作后,她知道歷史變革并沒有那么簡單,至少沒有很多人想象中的那樣輕而易舉,還有大量的工作要做,還有很長的路要走。
沒錯,正是這些“要被機(jī)器替代的人”,現(xiàn)在正在幫助機(jī)器變得更聰明。
△ Google翻譯耳機(jī)Pixel Buds
專八“數(shù)字工人”
安妮是從事中英翻譯的全職工作者,持英語專業(yè)八級證書,中英口語流利、切換自如,擁有多年翻譯經(jīng)驗(yàn)。
在過去6個月里,她和團(tuán)隊(duì)都在參與完成一項(xiàng)全新的工作:參與一個名為“AI Challenger”比賽的英中翻譯數(shù)據(jù)集打造。
當(dāng)搜狗公司表述完訴求時,安妮意識到這不僅是一項(xiàng)全新的工作,也會是一個極具挑戰(zhàn)的任務(wù):
最長6個月時間,1200萬口語句對清洗、標(biāo)注和檢查,堪稱時間緊、任務(wù)重,數(shù)據(jù)質(zhì)量要求高。
最終,包括安妮在內(nèi),團(tuán)隊(duì)中共有60多人參與,夜以繼日,才在AI Challenger上線前完成了交割。
△ 搜狗CEO王小川在AI Challenger
在AI Challenger中負(fù)責(zé)英中翻譯數(shù)據(jù)集的搜狗,也隨之松了一口氣。搜狗之前有機(jī)器翻譯數(shù)據(jù)和數(shù)據(jù)集方面的經(jīng)驗(yàn),但1000萬數(shù)量級的口語翻譯數(shù)據(jù)集,尚屬第一次,也無國內(nèi)外直接經(jīng)驗(yàn)可參照,完全是開創(chuàng)性的。
搜狗方面透露,這個數(shù)據(jù)集的耗資超過了上百萬元人民幣,但成本還不是首要問題,因?yàn)榧幢阌绣X也遭遇了接單危機(jī)——不少數(shù)據(jù)標(biāo)注公司在聽完訴求后拒絕了這一大單,如此時間緊任務(wù)重要求高的工作,實(shí)在太損耗人了。
經(jīng)過多家對比,一家譯員規(guī)模較大的公司才進(jìn)入搜狗視野,更利好的是,他們曾經(jīng)有過類似數(shù)據(jù)檢查和處理的經(jīng)驗(yàn)。
這也就意味著,為這次翻譯數(shù)據(jù)集扮演“數(shù)字工人”角色的,是一群持有英語專業(yè)八級證書、口語流利、擁有多年翻譯經(jīng)驗(yàn)的人。
工作的內(nèi)容也不輕松。安妮向量子位介紹說,整個流程包含“采集”、“清洗”和“檢查標(biāo)注”三部分,其中她們核心參與的是“檢查標(biāo)注”,通過純?nèi)斯さ姆绞街鹁錂z查標(biāo)注。
不過數(shù)據(jù)進(jìn)入檢查標(biāo)注之前,也耗費(fèi)了搜狗工程師不少精力。
他們首先需要從網(wǎng)絡(luò)上抓取來自于英語學(xué)習(xí)網(wǎng)址等含有中英對照文本的網(wǎng)頁數(shù)據(jù)。然后對不同來源的網(wǎng)頁數(shù)據(jù)進(jìn)行處理,對原始的網(wǎng)頁文件進(jìn)行去除HTML標(biāo)簽,提取文本數(shù)據(jù),并對齊中英文文本,得到中英文對照的數(shù)據(jù)之后,還需要進(jìn)行數(shù)據(jù)噪音去除等清洗工作。
安妮說整個檢查標(biāo)注的工作開始前,這是一份包含1200萬句對的數(shù)據(jù),聽起來只是一個數(shù)字,每一個句對卻都需要耗費(fèi)心血。其中相對簡單的是一些短句,因?yàn)槿笔舷挛亩鴮?dǎo)致語義難以判斷,就可以快速排除掉,在整個工作結(jié)束后,她們排除的這樣句對,規(guī)模高達(dá)200萬。
這也讓專八翻譯安妮對AI有了更進(jìn)一步的認(rèn)知,之前有人大談AI將帶來怎樣的失業(yè)浪潮,其后又有不少“人工智障”的段子流傳于圈內(nèi)。
在盲目樂觀和盲目悲觀之間,安妮知道“巴別魚”還需要很長的時間,需要像她一樣的專業(yè)八級翻譯員更辛苦地工作。
她自嘲數(shù)據(jù)集的工作確實(shí)會有一種數(shù)字工廠流水線工人的即時感,但她同時認(rèn)為參與這樣一項(xiàng)工作也是一種榮幸——如果能夠通過AI Challenger的比賽誕生更好的算法和產(chǎn)品,能夠打破語言帶來的溝通鴻溝,未嘗不是一件好事。
安妮說,從未想過自己竟然也能參與到科幻小說展現(xiàn)的美好圖景中,那本大學(xué)時讓她著迷的《銀河系漫游指南》,現(xiàn)在似乎在無限接近實(shí)現(xiàn),她感到幸運(yùn),“很多時代的人只能通過想象,但我們正在經(jīng)歷。”
然而,時代之幸背后,還需要更辛苦的“人工”付出,因?yàn)檎Z言翻譯數(shù)據(jù)集,并不簡單。
這種不簡單,清華大學(xué)計(jì)算機(jī)系的劉洋博士深有體會。
△ 清華大學(xué)劉洋博士
語言數(shù)據(jù)集之困
劉洋是清華大學(xué)計(jì)算機(jī)系副教授,也是中國中文信息學(xué)會青年工作委員會主任、計(jì)算語言學(xué)專業(yè)委員會秘書長,他向量子位介紹了目前機(jī)器翻譯領(lǐng)域數(shù)據(jù)問題的一般解決方法。
主要是購買。
在文本領(lǐng)域目前最有名的機(jī)構(gòu)是語言資源聯(lián)盟(LDC),其中涵蓋了很多文本、語音方面的數(shù)據(jù),由于LDC成立時間早,還與美國NIST組織的各項(xiàng)評測關(guān)聯(lián),于是機(jī)器翻譯、語言識別、文本處理和信息檢索,最早都要依靠LDC的數(shù)據(jù)集來展開。
但LDC數(shù)據(jù)集的核心問題在于購買和版權(quán)限制,不能隨便轉(zhuǎn)讓,開放性上的局限會相應(yīng)造成研發(fā)上的局限。
這也成了歐洲主導(dǎo)的WMT評測影響力日隆的原因,尤其是深度學(xué)習(xí)狂飆突進(jìn)之后。
WMT發(fā)起之時,歐盟主導(dǎo)推出了兩大免費(fèi)公開項(xiàng)目,一個叫EU matrix,另一個叫EU matrix ++,他們把歐盟的一些政府文檔作為數(shù)據(jù)源,其中的多國語言對比版本,是現(xiàn)成的高質(zhì)量的機(jī)器翻譯數(shù)據(jù)集。
但即便已經(jīng)解決了開放的問題,歐盟數(shù)據(jù)集可能還算不上圖像領(lǐng)域ImageNet一樣的“經(jīng)典”,這由語言翻譯的特殊性決定。
核心是成績評價標(biāo)準(zhǔn)。
機(jī)器翻譯生成譯文都有多種可能性,好比人類中一千個哈姆雷特翻出一千種譯文,用詞、文采到句式結(jié)構(gòu),可能都不盡相同。所以這就給機(jī)器翻譯的評判造成難題,理論上要求多個標(biāo)準(zhǔn)答案來參考,但現(xiàn)實(shí)中具體操作并不容易。
舉例來說,現(xiàn)在歐盟數(shù)據(jù)只有一個標(biāo)準(zhǔn)答案,NIST數(shù)據(jù)集有4個標(biāo)準(zhǔn)答案,而日本組織的口語評測則達(dá)到了16種……歐盟的數(shù)據(jù)最核心的優(yōu)勢在于開放,使用者眾,影響力廣泛。
除了算分標(biāo)準(zhǔn)上的完善,成為語言翻譯領(lǐng)域的經(jīng)典數(shù)據(jù)集,還有三個方面的維度。
一是是否被各個重要的評測所采用,作為指定數(shù)據(jù)集,質(zhì)量上獲得廣泛認(rèn)可;
二是該領(lǐng)域重要文論的實(shí)驗(yàn)結(jié)果產(chǎn)生中,采用了什么樣的數(shù)據(jù)集;
三則是數(shù)據(jù)量上,數(shù)據(jù)集本身支持的語言語種、規(guī)模大小,以及覆蓋領(lǐng)域等,也是重要評價因素。
比如想要實(shí)現(xiàn)工業(yè)級、產(chǎn)品級應(yīng)用的機(jī)器翻譯系統(tǒng),可能得有上千萬甚至上億級別的句對,一個句對的平均句長在30-40詞左右。
還有語言均衡和領(lǐng)域均衡的問題。語言均衡主要是語種,可能中英、英法這樣的很多,但中越、中文阿拉伯文這樣的數(shù)據(jù)就相對較少,語言語種上不均衡。
另外是領(lǐng)域方面,不少數(shù)據(jù)集最早的來源都是政府網(wǎng)站,或者聯(lián)合國官方文件,但如果不是交往密切,或者非聯(lián)合國官方語種,可能數(shù)據(jù)就會受限,遑論書面文件之外的口語數(shù)據(jù)集打造了。
不過核心中的核心,還在于開放性,這是語言數(shù)據(jù)集的關(guān)鍵所系、是長遠(yuǎn)生命力的關(guān)鍵所在。只有開放,才能有源源不斷的補(bǔ)充和研究反饋。
所以在劉洋博士看來,此次AI Challenger也是中國在經(jīng)典語言數(shù)據(jù)集打造方面的一次機(jī)會。
此次打造的口語領(lǐng)域英中雙語對照數(shù)據(jù)集,之前科研界并不容易得到,更多還需要與企業(yè)合作,不過由于涉及商業(yè)保密和知識產(chǎn)權(quán),也會多處受限。
但企業(yè)從工業(yè)界獲取的數(shù)據(jù),又是科研理論成果的保障,比如購買LDC數(shù)據(jù)集也能用來在某個小領(lǐng)域得出不錯的結(jié)果,可一旦進(jìn)入更大的領(lǐng)域,就會出現(xiàn)不work的情況,這也是之前翻譯領(lǐng)域科研成果和企業(yè)應(yīng)用不能很好銜接的原因。
實(shí)際上,推動科研和企業(yè)數(shù)據(jù)結(jié)合,也是當(dāng)前技術(shù)瓶頸的內(nèi)在需求。
十年前Google在機(jī)器翻譯領(lǐng)域曾有較為知名的一個結(jié)論,稱數(shù)據(jù)集規(guī)模每翻一倍,它自動評價的指標(biāo)就能夠提升0.5個百分點(diǎn)。
這在當(dāng)時給了機(jī)器翻譯的從業(yè)者們無限信心,因?yàn)橹灰粩鄶U(kuò)展數(shù)據(jù)集規(guī)模即可,Google這樣的搜索公司,數(shù)據(jù)又怎么會成為大問題,然而十多年過去了,即便翻譯精度和準(zhǔn)確度不斷提升,卻還是在當(dāng)前進(jìn)入緩慢增長階段。
劉洋博士認(rèn)為,已經(jīng)到了一個算法躍遷的時刻,如果沒有算法上的新突破,可能一味拓展數(shù)據(jù)也難以獲得質(zhì)的突破。這在深度學(xué)習(xí)浪潮中已經(jīng)得到驗(yàn)證,現(xiàn)在同樣需要復(fù)制科研和企業(yè)聯(lián)動解決問題的經(jīng)驗(yàn)。
所以這也是AI Challenger難能可貴之處,至少在數(shù)據(jù)開放和推動算法躍遷方面邁出了第一步,其間過程中,甘苦冷暖,也只有參與者才能體味。
搜狗市場方面的人士告訴量子位,這完全就是一份苦活累活,除了不計(jì)成本地投入上百萬元,還要完成數(shù)據(jù)資源開放、內(nèi)部專門配合等工作,光對接標(biāo)注及檢查一項(xiàng),就讓他們在今年持續(xù)跟進(jìn)了6個月左右的時間——眾所周知,今年搜狗還有IPO上市的大事件要做。
然而,一切辛苦在數(shù)據(jù)集推出后也獲得了回報,參賽選手反饋:1000萬句對規(guī)模的口語中文翻譯,一開始期望在規(guī)模上,沒料到質(zhì)量也如此之高。
當(dāng)然,如果參賽選手如果知道這1000萬句對內(nèi)后,每一句都有一位至少持有專八資格的資深翻譯人員,可能就不會太過“意料之外”了。
也難怪在AI Challenger大賽發(fā)布會上,AI Challenger執(zhí)行委員王詠剛談到語言數(shù)據(jù)集時的“動情一瞬”。
“這將是下一個AlphaGo,下一個AI里程碑事件,我們希望在中國、在AI Challenger試一試?!?/p>
OMT:參賽選手建議
最后,作為此次AI Challenger挑戰(zhàn)賽的評委,劉洋副教授也談到了選手評分參考,以及對首次參賽選手的建議。
劉洋博士認(rèn)為,一般參與評測的大標(biāo)準(zhǔn)是最后的成績,而成績評分方法有兩種:
一種是自動評判,即看專業(yè)人士結(jié)果與機(jī)器算法產(chǎn)生結(jié)果的相似度,相似度越高,系數(shù)越好;
另一種是人工評判,由專業(yè)人士對機(jī)器算法結(jié)果進(jìn)行直接評定,這種方法在當(dāng)前更具精準(zhǔn)性。
不過還有另外的維度去評判AI Challenger這樣的挑戰(zhàn)賽,評委會更看重創(chuàng)新性,是否使用一些創(chuàng)新方法簡化了流程,或者在細(xì)節(jié)的數(shù)據(jù)處理、參數(shù)調(diào)節(jié)上可以做得更細(xì)致,都會讓人眼前一亮。
而對于哪些首次參與類似比賽的同學(xué),劉洋博士也有關(guān)于數(shù)據(jù)集使用方面的建議。
首先是需要“精心挑選”,把所有數(shù)據(jù)都用上不一定是明智之舉,這其中會考察選手的很多能力,比如數(shù)據(jù)集選取、數(shù)據(jù)集質(zhì)量判斷、任務(wù)適應(yīng)度和匹配度判斷等方面的能力。
“如果最終任務(wù)是新聞,你拿法律相關(guān)的數(shù)據(jù)是沒有太多幫助的,所以選擇用什么樣的數(shù)據(jù)集反而非常重要?!?/p>
其次是對于數(shù)據(jù)的處理很關(guān)鍵。很多人以為評測成績的最終決定于大方法,但其實(shí)很多情況下成績是由細(xì)節(jié)上的選擇和處理決定的,比如中文怎么分次、英文怎么做、轉(zhuǎn)成什么,全半角要不要做轉(zhuǎn)換、各種各樣的符號等,這種細(xì)節(jié)上對于翻譯錯誤的影響是非常大的,有些時候是很多新手想象不到。所以,參賽選手要在前處理方面做很多細(xì)致的工作。
最后是參數(shù)調(diào)節(jié)上??赡艽舜伪荣惡芏噙x手都會使用神經(jīng)機(jī)器方法和深度學(xué)習(xí)的方法,但其中也有不少“坑”,涉及到參數(shù)調(diào)節(jié)的能力,可能同一個系統(tǒng),不同人就會跑出不同的效果,這也是一個不斷積累經(jīng)驗(yàn)的過程。
當(dāng)然,希望AI Challenger也能幫助選手不斷實(shí)現(xiàn)能力提升,一起實(shí)現(xiàn)我們在翻譯領(lǐng)域的終極目標(biāo)。
本文轉(zhuǎn)自微信公眾號“量子位”,作者李根。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。