芥末堆芥末堆

猿輔導(dǎo)登頂MSMARCO:機(jī)器閱讀理解超過(guò)人類水平、力壓百度微軟

作者:允中 發(fā)布時(shí)間:

猿輔導(dǎo)登頂MSMARCO:機(jī)器閱讀理解超過(guò)人類水平、力壓百度微軟

作者:允中 發(fā)布時(shí)間:

摘要:這可能不在大多數(shù)人的意料之中。

1.jpg

*本文經(jīng)AI新媒體量子位(公眾號(hào) ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這可能不在大多數(shù)人的意料之中。

在著名的微軟MSMARCO(Microsoft Machine Reading Comprehension)機(jī)器閱讀理解測(cè)試排行上,現(xiàn)在排名第一的團(tuán)隊(duì),已經(jīng)悄然變成了猿輔導(dǎo)

2.jpg

這意味著,一家提供中小學(xué)在線輔導(dǎo)的創(chuàng)業(yè)公司,在這場(chǎng)機(jī)器閱讀理解實(shí)力比拼中,戰(zhàn)勝了百度、微軟這兩個(gè)強(qiáng)勁的對(duì)手。

不止于此,猿輔導(dǎo)這個(gè)AI系統(tǒng)的表現(xiàn),也超過(guò)了人類水平。

這是MSMARCO排行榜上首次出現(xiàn)的情況。猿輔導(dǎo)團(tuán)隊(duì)的兩項(xiàng)測(cè)試得分為:49.72、48.02。而人類基準(zhǔn)為47、46。

什么是超過(guò)人類水平?猿輔導(dǎo)給了一個(gè)解釋:

MSMARCO數(shù)據(jù)集包含微軟BING搜索的query以及query對(duì)應(yīng)的top 10的搜索結(jié)果。超過(guò)人類的意思就是說(shuō),給定query和top 10搜索結(jié)果,機(jī)器找出的答案比普通人找的更準(zhǔn)。

3.jpg

MSMARCO官方發(fā)來(lái)賀電

實(shí)際上,MARCO是微軟基于搜索引擎BING構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集,包含10萬(wàn)個(gè)問(wèn)題和20萬(wàn)篇不重復(fù)的文檔。

MARCO數(shù)據(jù)集中的問(wèn)題全部來(lái)自于BING的搜索日志,根據(jù)用戶在BING中輸入的真實(shí)問(wèn)題模擬搜索引擎中的真實(shí)應(yīng)用場(chǎng)景,是該領(lǐng)域最有應(yīng)用價(jià)值的數(shù)據(jù)集之一。

此前百度提供的信息稱,在機(jī)器閱讀理解領(lǐng)域,研究者多參與由斯坦福大學(xué)發(fā)起的SQuAD挑戰(zhàn)賽。但相比SQuAD,MARCO的挑戰(zhàn)難度更大,因?yàn)樗枰獪y(cè)試者提交的模型具備理解復(fù)雜文檔、回答復(fù)雜問(wèn)題的能力。

今年2月,百度NLP團(tuán)隊(duì)在這個(gè)排行榜登頂時(shí),得分為46.15、44.46。百度之前憑借的是V-NET單一模型。

而這次猿輔導(dǎo)使用的一個(gè)名為MARS(Multi-Attention ReaderS)的模型。這個(gè)模型采用層疊式的注意力機(jī)制,在多候選文檔采樣出多個(gè)候選答案區(qū)域,并在此基礎(chǔ)上使用交叉投票模型,優(yōu)化最終的答案。

這套系統(tǒng)來(lái)自猿輔導(dǎo)的NLP團(tuán)隊(duì),主要成員包括柳景明等人。

其實(shí),猿輔導(dǎo)在NLP領(lǐng)域的成績(jī),不止這一件。更早一些時(shí)候,量子位還在arXiv上看到過(guò)一篇來(lái)自猿輔導(dǎo)的論文。這篇論文的作者是猿輔導(dǎo)NLP團(tuán)隊(duì)的王亮。

題目很直白:

Yuanfudao at SemEval-2018 Task 11: Three-way Attention and Relational Knowledge for Commonsense Machine Comprehension.

簡(jiǎn)單來(lái)說(shuō)就是,猿輔導(dǎo)的NLP團(tuán)隊(duì)在SemEval-2018(國(guó)際語(yǔ)義評(píng)測(cè))的一個(gè)任務(wù)上,獲得了一個(gè)第二名的成績(jī)。

這個(gè)任務(wù)名為Machine Comprehension using Commonsense Knowledge,意為:使用常識(shí)的機(jī)器閱讀理解。

這個(gè)任務(wù)排名第一的是哈工大訊飛聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)。

4.jpg

在另一個(gè)著名的機(jī)器閱讀理解排行榜SQuAD上,目前猿輔導(dǎo)NLP團(tuán)隊(duì)的成績(jī)排在第六名。

目前SQuAD有三個(gè)并列第一,除了哈工大訊飛聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)、微軟亞洲研究院和國(guó)防科大聯(lián)合團(tuán)隊(duì)之外,還有一個(gè)新面孔擠了進(jìn)來(lái):Google Brain和CMU聯(lián)合團(tuán)隊(duì)。

5.jpg

看來(lái),NLP領(lǐng)域的爭(zhēng)奪會(huì)更激烈、更好玩了。

最后,量子位聯(lián)系上了猿輔導(dǎo),官方給出一些正式的回應(yīng)。我們也列在下面,供參考。

1、猿輔導(dǎo)為什么要做機(jī)器閱讀理解

從公司組建起,我們就有自己的應(yīng)用研究部,AI做為教育未來(lái)應(yīng)用的底層技術(shù),我們公司也在著重打造自己在這方面的能力,包括猿輔導(dǎo)在線課程在內(nèi)的公司各項(xiàng)業(yè)務(wù),也都享受著AI技術(shù)帶來(lái)的推動(dòng)和變革。

機(jī)器閱讀理解、語(yǔ)音識(shí)別、手寫識(shí)別、圖像識(shí)別等技術(shù),分別被應(yīng)用在了猿輔導(dǎo)的在線輔導(dǎo)課程,小猿搜題、小猿口算、斑馬英語(yǔ)等等產(chǎn)品中,諸如小猿搜題的搜題功能,英文作文的手寫識(shí)別及打分,小猿口算的拍照批改,斑馬英語(yǔ)的繪本朗讀打分等等。

機(jī)器閱讀理解只是這個(gè)團(tuán)隊(duì)眾多AI技術(shù)方向中的一支,公司一直在技術(shù)層面上做更多的嘗試,這次取得第一也是階段性的成果之一。

2、研發(fā)團(tuán)隊(duì)的成員組成

猿輔導(dǎo)應(yīng)用研究團(tuán)隊(duì)成立于2014年年中,一直從事深度學(xué)習(xí)在教育領(lǐng)域的應(yīng)用和研究工作。團(tuán)隊(duì)成員均畢業(yè)于北京大學(xué)、清華大學(xué)、上海交大、中科院、香港大學(xué)等知名高校,大多數(shù)擁有碩士或博士學(xué)位。

研究方向涵蓋了圖像識(shí)別,語(yǔ)音識(shí)別、自然語(yǔ)言理解、數(shù)據(jù)挖掘、深度學(xué)習(xí)等領(lǐng)域。團(tuán)隊(duì)成功運(yùn)用深度學(xué)習(xí)技術(shù),從零開(kāi)始打造了活躍用戶過(guò)億的拍照搜題APP——小猿搜題,開(kāi)源了分布式機(jī)器學(xué)習(xí)系統(tǒng)ytk-learn和分布式通信系統(tǒng)ytk-mp4j。

3、此次提交給微軟的模型是怎樣的?為何會(huì)超過(guò)百度?

此次我們提交的MARS(Multi-Attention ReaderS)模型,采用層疊式的注意力機(jī)制在多候選文檔采樣出多個(gè)候選答案區(qū)域,并在此基礎(chǔ)上使用交叉投票模型,優(yōu)化最終的答案。

在可評(píng)測(cè)的指標(biāo)上,猿輔導(dǎo)此次上傳的MARS是MS MARCO的數(shù)據(jù)集上首次超過(guò)人類的模型,并且大幅超過(guò)第二名百度。根據(jù)團(tuán)隊(duì)介紹,這個(gè)數(shù)據(jù)集包含微軟BING搜索的query以及query對(duì)應(yīng)的top 10的搜索結(jié)果,超過(guò)人類的意思就是說(shuō),給定query和top 10搜索結(jié)果,機(jī)器找出的答案比普通人找的更準(zhǔn)。
【關(guān)于超過(guò)人類數(shù)據(jù),微軟方面給出的說(shuō)法是:Can your model read, comprehend, and answer questions better than humans? The below is current human performance on the MS MARCO task (which we will improve in future versions). This was ascertained by having two judges answer the same question and measuring our metrics over their responses.】

另外,我們的模型在SemEval(國(guó)際語(yǔ)義評(píng)測(cè))上的閱讀理解task上,獲得了第二名。此前曾在SQuAD數(shù)據(jù)集上,單模型第三。

本文轉(zhuǎn)自量子位,作者允中。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:量子位
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。
來(lái)源:量子位
芥末堆商務(wù)合作:王老師 18710003484
  • 猿輔導(dǎo)登頂MSMARCO:機(jī)器閱讀理解超過(guò)人類水平、力壓百度微軟分享二維碼