久久最新精品,亚洲无码精品视频在线看,国产精品永久在线播放

圖片來源：Pexels

*本文經(jīng)AI新媒體量子位（公眾號ID：QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

Google Pixel Buds的發(fā)布震驚了不少人。

每個人都期望戴上這樣的翻譯耳機，猶如獲得科幻小說《銀河系漫游指南》中的“巴別魚”，從此再無跨語言帶來的隔閡與障礙——一切輕而易舉。

也有人為歷史進程中的翻譯工作者擔心，他們看起來即將失去養(yǎng)家糊口的手藝。

不過這并未引起安妮的擔憂，尤其是剛參與完一項語言翻譯數(shù)據(jù)集工作后，她知道歷史變革并沒有那么簡單，至少沒有很多人想象中的那樣輕而易舉，還有大量的工作要做，還有很長的路要走。

沒錯，正是這些“要被機器替代的人”，現(xiàn)在正在幫助機器變得更聰明。

△ Google翻譯耳機Pixel Buds

專八“數(shù)字工人”

安妮是從事中英翻譯的全職工作者，持英語專業(yè)八級證書，中英口語流利、切換自如，擁有多年翻譯經(jīng)驗。

在過去6個月里，她和團隊都在參與完成一項全新的工作：參與一個名為“AI Challenger”比賽的英中翻譯數(shù)據(jù)集打造。

當搜狗公司表述完訴求時，安妮意識到這不僅是一項全新的工作，也會是一個極具挑戰(zhàn)的任務(wù)：

最長6個月時間，1200萬口語句對清洗、標注和檢查，堪稱時間緊、任務(wù)重，數(shù)據(jù)質(zhì)量要求高。

最終，包括安妮在內(nèi)，團隊中共有60多人參與，夜以繼日，才在AI Challenger上線前完成了交割。

△ 搜狗CEO王小川在AI Challenger

在AI Challenger中負責(zé)英中翻譯數(shù)據(jù)集的搜狗，也隨之松了一口氣。搜狗之前有機器翻譯數(shù)據(jù)和數(shù)據(jù)集方面的經(jīng)驗，但1000萬數(shù)量級的口語翻譯數(shù)據(jù)集，尚屬第一次，也無國內(nèi)外直接經(jīng)驗可參照，完全是開創(chuàng)性的。

搜狗方面透露，這個數(shù)據(jù)集的耗資超過了上百萬元人民幣，但成本還不是首要問題，因為即便有錢也遭遇了接單危機——不少數(shù)據(jù)標注公司在聽完訴求后拒絕了這一大單，如此時間緊任務(wù)重要求高的工作，實在太損耗人了。

經(jīng)過多家對比，一家譯員規(guī)模較大的公司才進入搜狗視野，更利好的是，他們曾經(jīng)有過類似數(shù)據(jù)檢查和處理的經(jīng)驗。

這也就意味著，為這次翻譯數(shù)據(jù)集扮演“數(shù)字工人”角色的，是一群持有英語專業(yè)八級證書、口語流利、擁有多年翻譯經(jīng)驗的人。

工作的內(nèi)容也不輕松。安妮向量子位介紹說，整個流程包含“采集”、“清洗”和“檢查標注”三部分，其中她們核心參與的是“檢查標注”，通過純?nèi)斯さ姆绞街鹁錂z查標注。

不過數(shù)據(jù)進入檢查標注之前，也耗費了搜狗工程師不少精力。

他們首先需要從網(wǎng)絡(luò)上抓取來自于英語學(xué)習(xí)網(wǎng)址等含有中英對照文本的網(wǎng)頁數(shù)據(jù)。然后對不同來源的網(wǎng)頁數(shù)據(jù)進行處理，對原始的網(wǎng)頁文件進行去除HTML標簽，提取文本數(shù)據(jù)，并對齊中英文文本，得到中英文對照的數(shù)據(jù)之后，還需要進行數(shù)據(jù)噪音去除等清洗工作。

安妮說整個檢查標注的工作開始前，這是一份包含1200萬句對的數(shù)據(jù)，聽起來只是一個數(shù)字，每一個句對卻都需要耗費心血。其中相對簡單的是一些短句，因為缺失上下文而導(dǎo)致語義難以判斷，就可以快速排除掉，在整個工作結(jié)束后，她們排除的這樣句對，規(guī)模高達200萬。

這也讓專八翻譯安妮對AI有了更進一步的認知，之前有人大談AI將帶來怎樣的失業(yè)浪潮，其后又有不少“人工智障”的段子流傳于圈內(nèi)。

在盲目樂觀和盲目悲觀之間，安妮知道“巴別魚”還需要很長的時間，需要像她一樣的專業(yè)八級翻譯員更辛苦地工作。

她自嘲數(shù)據(jù)集的工作確實會有一種數(shù)字工廠流水線工人的即時感，但她同時認為參與這樣一項工作也是一種榮幸——如果能夠通過AI Challenger的比賽誕生更好的算法和產(chǎn)品，能夠打破語言帶來的溝通鴻溝，未嘗不是一件好事。

安妮說，從未想過自己竟然也能參與到科幻小說展現(xiàn)的美好圖景中，那本大學(xué)時讓她著迷的《銀河系漫游指南》，現(xiàn)在似乎在無限接近實現(xiàn)，她感到幸運，“很多時代的人只能通過想象，但我們正在經(jīng)歷?！?/p>

然而，時代之幸背后，還需要更辛苦的“人工”付出，因為語言翻譯數(shù)據(jù)集，并不簡單。

這種不簡單，清華大學(xué)計算機系的劉洋博士深有體會。

△ 清華大學(xué)劉洋博士

語言數(shù)據(jù)集之困

劉洋是清華大學(xué)計算機系副教授，也是中國中文信息學(xué)會青年工作委員會主任、計算語言學(xué)專業(yè)委員會秘書長，他向量子位介紹了目前機器翻譯領(lǐng)域數(shù)據(jù)問題的一般解決方法。

主要是購買。

在文本領(lǐng)域目前最有名的機構(gòu)是語言資源聯(lián)盟（LDC），其中涵蓋了很多文本、語音方面的數(shù)據(jù)，由于LDC成立時間早，還與美國NIST組織的各項評測關(guān)聯(lián)，于是機器翻譯、語言識別、文本處理和信息檢索，最早都要依靠LDC的數(shù)據(jù)集來展開。

但LDC數(shù)據(jù)集的核心問題在于購買和版權(quán)限制，不能隨便轉(zhuǎn)讓，開放性上的局限會相應(yīng)造成研發(fā)上的局限。

這也成了歐洲主導(dǎo)的WMT評測影響力日隆的原因，尤其是深度學(xué)習(xí)狂飆突進之后。

WMT發(fā)起之時，歐盟主導(dǎo)推出了兩大免費公開項目，一個叫EU matrix，另一個叫EU matrix ++，他們把歐盟的一些政府文檔作為數(shù)據(jù)源，其中的多國語言對比版本，是現(xiàn)成的高質(zhì)量的機器翻譯數(shù)據(jù)集。

但即便已經(jīng)解決了開放的問題，歐盟數(shù)據(jù)集可能還算不上圖像領(lǐng)域ImageNet一樣的“經(jīng)典”，這由語言翻譯的特殊性決定。

核心是成績評價標準。

機器翻譯生成譯文都有多種可能性，好比人類中一千個哈姆雷特翻出一千種譯文，用詞、文采到句式結(jié)構(gòu)，可能都不盡相同。所以這就給機器翻譯的評判造成難題，理論上要求多個標準答案來參考，但現(xiàn)實中具體操作并不容易。

舉例來說，現(xiàn)在歐盟數(shù)據(jù)只有一個標準答案，NIST數(shù)據(jù)集有4個標準答案，而日本組織的口語評測則達到了16種……歐盟的數(shù)據(jù)最核心的優(yōu)勢在于開放，使用者眾，影響力廣泛。

除了算分標準上的完善，成為語言翻譯領(lǐng)域的經(jīng)典數(shù)據(jù)集，還有三個方面的維度。

一是是否被各個重要的評測所采用，作為指定數(shù)據(jù)集，質(zhì)量上獲得廣泛認可；

二是該領(lǐng)域重要文論的實驗結(jié)果產(chǎn)生中，采用了什么樣的數(shù)據(jù)集；

三則是數(shù)據(jù)量上，數(shù)據(jù)集本身支持的語言語種、規(guī)模大小，以及覆蓋領(lǐng)域等，也是重要評價因素。

比如想要實現(xiàn)工業(yè)級、產(chǎn)品級應(yīng)用的機器翻譯系統(tǒng)，可能得有上千萬甚至上億級別的句對，一個句對的平均句長在30-40詞左右。

還有語言均衡和領(lǐng)域均衡的問題。語言均衡主要是語種，可能中英、英法這樣的很多，但中越、中文阿拉伯文這樣的數(shù)據(jù)就相對較少，語言語種上不均衡。

另外是領(lǐng)域方面，不少數(shù)據(jù)集最早的來源都是政府網(wǎng)站，或者聯(lián)合國官方文件，但如果不是交往密切，或者非聯(lián)合國官方語種，可能數(shù)據(jù)就會受限，遑論書面文件之外的口語數(shù)據(jù)集打造了。

不過核心中的核心，還在于開放性，這是語言數(shù)據(jù)集的關(guān)鍵所系、是長遠生命力的關(guān)鍵所在。只有開放，才能有源源不斷的補充和研究反饋。

所以在劉洋博士看來，此次AI Challenger也是中國在經(jīng)典語言數(shù)據(jù)集打造方面的一次機會。

此次打造的口語領(lǐng)域英中雙語對照數(shù)據(jù)集，之前科研界并不容易得到，更多還需要與企業(yè)合作，不過由于涉及商業(yè)保密和知識產(chǎn)權(quán)，也會多處受限。

但企業(yè)從工業(yè)界獲取的數(shù)據(jù)，又是科研理論成果的保障，比如購買LDC數(shù)據(jù)集也能用來在某個小領(lǐng)域得出不錯的結(jié)果，可一旦進入更大的領(lǐng)域，就會出現(xiàn)不work的情況，這也是之前翻譯領(lǐng)域科研成果和企業(yè)應(yīng)用不能很好銜接的原因。

實際上，推動科研和企業(yè)數(shù)據(jù)結(jié)合，也是當前技術(shù)瓶頸的內(nèi)在需求。

十年前Google在機器翻譯領(lǐng)域曾有較為知名的一個結(jié)論，稱數(shù)據(jù)集規(guī)模每翻一倍，它自動評價的指標就能夠提升0.5個百分點。

這在當時給了機器翻譯的從業(yè)者們無限信心，因為只要不斷擴展數(shù)據(jù)集規(guī)模即可，Google這樣的搜索公司，數(shù)據(jù)又怎么會成為大問題，然而十多年過去了，即便翻譯精度和準確度不斷提升，卻還是在當前進入緩慢增長階段。

劉洋博士認為，已經(jīng)到了一個算法躍遷的時刻，如果沒有算法上的新突破，可能一味拓展數(shù)據(jù)也難以獲得質(zhì)的突破。這在深度學(xué)習(xí)浪潮中已經(jīng)得到驗證，現(xiàn)在同樣需要復(fù)制科研和企業(yè)聯(lián)動解決問題的經(jīng)驗。

所以這也是AI Challenger難能可貴之處，至少在數(shù)據(jù)開放和推動算法躍遷方面邁出了第一步，其間過程中，甘苦冷暖，也只有參與者才能體味。

搜狗市場方面的人士告訴量子位，這完全就是一份苦活累活，除了不計成本地投入上百萬元，還要完成數(shù)據(jù)資源開放、內(nèi)部專門配合等工作，光對接標注及檢查一項，就讓他們在今年持續(xù)跟進了6個月左右的時間——眾所周知，今年搜狗還有IPO上市的大事件要做。

然而，一切辛苦在數(shù)據(jù)集推出后也獲得了回報，參賽選手反饋：1000萬句對規(guī)模的口語中文翻譯，一開始期望在規(guī)模上，沒料到質(zhì)量也如此之高。

當然，如果參賽選手如果知道這1000萬句對內(nèi)后，每一句都有一位至少持有專八資格的資深翻譯人員，可能就不會太過“意料之外”了。

也難怪在AI Challenger大賽發(fā)布會上，AI Challenger執(zhí)行委員王詠剛談到語言數(shù)據(jù)集時的“動情一瞬”。

“這將是下一個AlphaGo，下一個AI里程碑事件，我們希望在中國、在AI Challenger試一試。”

OMT：參賽選手建議

最后，作為此次AI Challenger挑戰(zhàn)賽的評委，劉洋副教授也談到了選手評分參考，以及對首次參賽選手的建議。

劉洋博士認為，一般參與評測的大標準是最后的成績，而成績評分方法有兩種：

一種是自動評判，即看專業(yè)人士結(jié)果與機器算法產(chǎn)生結(jié)果的相似度，相似度越高，系數(shù)越好；

另一種是人工評判，由專業(yè)人士對機器算法結(jié)果進行直接評定，這種方法在當前更具精準性。

不過還有另外的維度去評判AI Challenger這樣的挑戰(zhàn)賽，評委會更看重創(chuàng)新性，是否使用一些創(chuàng)新方法簡化了流程，或者在細節(jié)的數(shù)據(jù)處理、參數(shù)調(diào)節(jié)上可以做得更細致，都會讓人眼前一亮。

而對于哪些首次參與類似比賽的同學(xué)，劉洋博士也有關(guān)于數(shù)據(jù)集使用方面的建議。

首先是需要“精心挑選”，把所有數(shù)據(jù)都用上不一定是明智之舉，這其中會考察選手的很多能力，比如數(shù)據(jù)集選取、數(shù)據(jù)集質(zhì)量判斷、任務(wù)適應(yīng)度和匹配度判斷等方面的能力。

“如果最終任務(wù)是新聞，你拿法律相關(guān)的數(shù)據(jù)是沒有太多幫助的，所以選擇用什么樣的數(shù)據(jù)集反而非常重要?！?/p>

其次是對于數(shù)據(jù)的處理很關(guān)鍵。很多人以為評測成績的最終決定于大方法，但其實很多情況下成績是由細節(jié)上的選擇和處理決定的，比如中文怎么分次、英文怎么做、轉(zhuǎn)成什么，全半角要不要做轉(zhuǎn)換、各種各樣的符號等，這種細節(jié)上對于翻譯錯誤的影響是非常大的，有些時候是很多新手想象不到。所以，參賽選手要在前處理方面做很多細致的工作。

最后是參數(shù)調(diào)節(jié)上?？赡艽舜伪荣惡芏噙x手都會使用神經(jīng)機器方法和深度學(xué)習(xí)的方法，但其中也有不少“坑”，涉及到參數(shù)調(diào)節(jié)的能力，可能同一個系統(tǒng)，不同人就會跑出不同的效果，這也是一個不斷積累經(jīng)驗的過程。

當然，希望AI Challenger也能幫助選手不斷實現(xiàn)能力提升，一起實現(xiàn)我們在翻譯領(lǐng)域的終極目標。

本文轉(zhuǎn)自微信公眾號“量子位”，作者李根。

1、本文是芥末堆網(wǎng)轉(zhuǎn)載文章，原文：量子位；
2、如果你也從事教育，并希望被芥末堆報道，請您填寫信息告訴我們。

來源：量子位

芥末堆商務(wù)合作：王老師 18710003484

60名英語專八的半年苦戰(zhàn)：機器智能背后有一群“數(shù)字工人”