圖片來源:攝圖網(wǎng)
他曾經(jīng)的理想是在高校教書。但是在伯克利讀博期間,他的論文被丁磊看上了。他曾經(jīng)作為兼職學(xué)生被 Chinaren 和 Sohu 委以重任,他說那是因?yàn)樵?20 年前,懂系統(tǒng)的人實(shí)在太少。
今天的他,盡管官方職位是一名“CEO”,但是言談之中仍然掩蓋不住濃濃的技術(shù)氣息。當(dāng) InfoQ 二叉樹團(tuán)隊(duì)前去收集他的時(shí)候,他的桌上正擺著一份由機(jī)器翻譯成中文的最新的一份年度亞馬遜 CEO 致股東的信——坦白說,如果是一位完全不懂英文的人去看機(jī)器翻譯的這個(gè)版本也可以看懂里面的意思。
人工智能技術(shù)對(duì)翻譯領(lǐng)域都造成了哪些影響?對(duì)教育領(lǐng)域又會(huì)造成哪些影響?且看今天的二叉樹——
《兩界之間》技術(shù)專題紀(jì)錄片第九集,由 InfoQ 二叉樹 出品
嘉賓簡(jiǎn)介:周楓,現(xiàn)任網(wǎng)易高級(jí)副總裁,網(wǎng)易有道 CEO,在網(wǎng)易有道期間先后主導(dǎo)了有道詞典、有道搜索、有道云筆記、有道精品課、有道翻譯官的產(chǎn)品研發(fā)工作。
Q:首先請(qǐng)您介紹一下有道翻譯這塊的發(fā)展?
有道是國內(nèi)最早做在線翻譯引擎的公司,我們從 2008 年開始就有自己的自主研發(fā)的翻譯引擎。2008 年一直做到現(xiàn)在(2018 年),基本上做了有兩代的翻譯引擎。整個(gè)有道詞典目前累計(jì)了有 7 億用戶,每天全平臺(tái)活躍用戶超過 1700 萬。
Q:上述整個(gè)過程中有哪些重要的變化?
2008 年我們?nèi)タ紤]做翻譯的時(shí)候,其實(shí)考慮了很久,因?yàn)楫?dāng)時(shí)翻譯在商業(yè)應(yīng)用的領(lǐng)域是非常新的狀態(tài),我記得 Google 的翻譯應(yīng)該是大概 2006 年、2007 年商業(yè)應(yīng)用的,互聯(lián)網(wǎng)公司中間基本上是沒有什么公司有翻譯的技術(shù)的。所以我們因?yàn)楫?dāng)時(shí)是剛剛出了有道詞典,用戶都需要用翻譯,但是其實(shí)用戶也不知道可以做自動(dòng)的翻譯,那么我們團(tuán)隊(duì)覺得:要不我們?cè)囈幌拢?/p>
試完之后發(fā)現(xiàn),的確可以把它做出來,當(dāng)時(shí)用的是統(tǒng)計(jì)機(jī)器翻譯的技術(shù)。機(jī)器翻譯大概從 1940 年、1950 年左右就有人在討論,最初的翻譯技術(shù)叫規(guī)則機(jī)器翻譯。統(tǒng)計(jì)機(jī)器翻譯是更好的、第二代的技術(shù)。
我們 2008 年左右把它做出來,對(duì)我們的產(chǎn)品發(fā)展發(fā)揮了非常大的作用,每年它通過數(shù)據(jù)的積累,通過算法的改進(jìn),質(zhì)量都有提升,但其實(shí)到 2012、2013 年之后,它的質(zhì)量就達(dá)到一個(gè)瓶頸,因?yàn)榭傮w上,統(tǒng)計(jì)機(jī)器翻譯是有自己的局限性的。之后幾年,其實(shí)翻譯的產(chǎn)品和業(yè)務(wù)都是比較難受的,因?yàn)樗|(zhì)量不理想,也有很多關(guān)于翻譯的笑話。
基本上是到 2015、2016 年的時(shí)候,整個(gè)學(xué)術(shù)界提出來基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)翻譯的一些論文和想法。當(dāng)時(shí)其實(shí)還沒有公司把它產(chǎn)品化,我們也是認(rèn)為值得去嘗試,所以花了大概有兩年時(shí)間把神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯最終產(chǎn)品化。在 2017 年我們推出了神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯的引擎,比之前的翻譯的效果提高了非常多,而且現(xiàn)在總體上這個(gè)領(lǐng)域非?;钴S,每個(gè)季度我們的翻譯質(zhì)量,包括一些同行的翻譯質(zhì)量都會(huì)有比較大的提升。
去年的一年時(shí)間,包括我們?cè)趦?nèi)的翻譯質(zhì)量的提升,可能比過去五年加起來都要多。每個(gè)季度我們都會(huì)有新的模型上線,剛剛上個(gè)星期我們的中文和英文的翻譯引擎就上線了一個(gè)全新的版本,它的整體的網(wǎng)絡(luò)架構(gòu)、整體的訓(xùn)練方法和之前的 2017 年我們上線這個(gè)版本是完全不一樣的。
機(jī)器翻譯基本上我覺得有三部分工作,第一部分工作是數(shù)據(jù),對(duì)于翻譯來說的話就是平行語料,就是一句英文一句中文或者一句日文一句中文。第二部分是模型架構(gòu),或者說網(wǎng)絡(luò)架構(gòu),因?yàn)樗巧疃葘W(xué)習(xí),它是個(gè)網(wǎng)絡(luò),有很多不同的做法,這個(gè)是大家會(huì)有差異化的地方。第三部分,實(shí)際落地的時(shí)候會(huì)有很多問題,包括大小、尺寸,包括性能,包括你是在服務(wù)器端還是在在手機(jī)端,還是說各分一半等等很多選擇。
Q:像您說的落地,在有道來說就是翻譯蛋。為什么會(huì)想到做這樣的一個(gè)形態(tài)?
對(duì)我們來說也是個(gè)挺巧合的事情,因?yàn)槲覀兒芏嘤脩粲梦覀兎g里邊的離線翻譯的功能,用了之后都很喜歡,用戶就會(huì)提更多的需求。2017 年年初我們推出了語音對(duì)話翻譯的功能,功能一上線之后,用戶非常喜歡,使用量比我們想象的要大很多。
我們剛好那個(gè)時(shí)候也碰上一個(gè)我們的合作方,他們?cè)敢庾鲇布?。他們說既然你有語音翻譯的功能,我又會(huì)做硬件,我們一起合作來做一個(gè)翻譯的硬件。其實(shí)我們開始的時(shí)候還是討論挺多,覺得有很多挑戰(zhàn),因?yàn)閱为?dú)賣用戶一個(gè)硬件也挺不容易。實(shí)際做下來之后發(fā)現(xiàn)還是不錯(cuò)的,用戶需求比我們想象的要大,而且產(chǎn)品體驗(yàn)總體上也還不錯(cuò)。
Q:您在翻譯蛋的產(chǎn)品研發(fā)中扮演一個(gè)什么角色?
主要工作是團(tuán)隊(duì)做的,我還是在產(chǎn)品的技術(shù)和體驗(yàn),很多事情上還是會(huì)跟團(tuán)隊(duì)一起參與和討論。像我們希望支持更多的語言,像我們希望說二代我們一定要把離線的翻譯做得更好,這方面是我比較關(guān)心的。
可能有個(gè)例子是我自己參與事情比較多的,是關(guān)于這個(gè)產(chǎn)品的尺寸的設(shè)計(jì)。我們是想了很久這個(gè)問題,最后我們自己的定位是說,我們認(rèn)為這個(gè)產(chǎn)品應(yīng)該要比手機(jī)小,把它做成 70 克這樣的一個(gè)重量,用戶覺得這個(gè)是比較符合他需要的。第一代我們是 70 克,第二代還是 70 克。
Q:翻譯的研究領(lǐng)域,您現(xiàn)在關(guān)注哪些新的進(jìn)展?
翻譯本身在模型方面還是有挺多新的架構(gòu),包括我們自己用的比較多的,像注意力這樣的機(jī)制,像 transformer 這樣的機(jī)制,我們?cè)诓粩嗟目?,不斷的自己也在嘗試。
然后實(shí)際從工程角度上,我自己體會(huì)是說,真的要把產(chǎn)品做到說用戶認(rèn)為非常好用和指標(biāo)高還是不是一回事。
Q:目前我們?cè)诮逃I(lǐng)域都有哪些投入?
我們認(rèn)為工具產(chǎn)品也是教育產(chǎn)品,當(dāng)然最直接的就是我們的課程產(chǎn)品,它的品牌是有道精品課。主要的形式是直播的大課,就是一個(gè)老師既有可能給幾百人同時(shí)上課,也有可能是同時(shí)上萬人一起上課。
目前來看的話,其實(shí)直播課程是比較關(guān)鍵性的一步,直播課程使得在線教育開始能夠得到大批量的用戶的接受,也有了一個(gè)比較健康的商業(yè)模式。我覺得至少在可能從一年多前開始,到未來可能兩三年或者更長(zhǎng),直播應(yīng)該是互聯(lián)網(wǎng)教育的一個(gè)主要的形態(tài)。我是這么看這個(gè)問題。
我覺得互聯(lián)網(wǎng)的這樣的遠(yuǎn)程的純?cè)诰€的教育方式里邊,兩個(gè)問題最關(guān)鍵:第一個(gè)是學(xué)習(xí)的效率,第二個(gè)是學(xué)習(xí)的動(dòng)力。這兩個(gè)問題必須都解決,才是一個(gè)比較好的產(chǎn)品形態(tài)。我們發(fā)現(xiàn)直播形態(tài)其實(shí)能夠比較好的保持學(xué)生的注意力,因?yàn)樗幸粋€(gè)大家一起學(xué)習(xí)的感覺,跟老師也有各種各樣的互動(dòng)。我覺得是娛樂直播產(chǎn)品給教育產(chǎn)品做了一個(gè)非常好的示范。
所以相當(dāng)于我們摸索了幾種形式之后,到 2016、2017 年開始做直播之后,發(fā)現(xiàn)用戶的反饋是完全不一樣,以前可能能學(xué)完課的比例是百分之十甚至更低,現(xiàn)在很大比例的學(xué)生都能堅(jiān)持下來。
Q:錄播變成直播就有這樣的效果嗎?
直播是其中挺關(guān)鍵的一步。我覺得直播只是開始,后面的話我們覺得非常重要的一環(huán)是 AI 技術(shù)的各種的應(yīng)用。
在當(dāng)下的話,這里邊我們認(rèn)為一個(gè)關(guān)鍵的點(diǎn),就是怎么把這樣的一個(gè)基于直播的教學(xué)從單向變成雙向。因?yàn)槿绻呛?jiǎn)單的直播的話,總體上它的方式是老師講學(xué)生聽,這是一個(gè)單向的過程,總體上你還是沒有辦法知道學(xué)生到底學(xué)的怎么樣?他是不是有聽懂?課后他有沒有去跟進(jìn)去學(xué)習(xí)?他的困擾有沒有得到解決?我覺得這是目前階段我們?cè)谥鉀Q的問題和未來的產(chǎn)品機(jī)會(huì)所在。
我們做了一些嘗試,包括我們的有道智能答題板,包括我們做的用戶習(xí)題的系統(tǒng),包括我們做的一些做作業(yè)的自動(dòng)批改,這些都是一定程度上把教學(xué)過程從單向變成雙向。
Q:您是相當(dāng)于從小學(xué)的時(shí)候就接觸計(jì)算機(jī)?
對(duì),我初中小學(xué)花了很多時(shí)間在計(jì)算機(jī)上,高考的時(shí)候我就選了清華的計(jì)算機(jī)系,基本上到清華之后也一直在跟計(jì)算機(jī)打交道。
我在清華的時(shí)候,剛好 1998、1999 年的時(shí)候,中國互聯(lián)網(wǎng)的第一批公司大發(fā)展,所以當(dāng)時(shí)我去了 Chinaren 和 Sohu 兩家公司兼職。那個(gè)時(shí)候,其實(shí)兼職學(xué)生往往被公司賦予重任——因?yàn)闀?huì)做系統(tǒng)的人很少,所以當(dāng)時(shí)還是積累了一些經(jīng)驗(yàn)。之后我去了美國伯克利讀 PHD,畢業(yè)之后回到網(wǎng)易。
Q:當(dāng)時(shí)沒有想過要留在美國?
我本來是想在美國教書的,我去美國讀 PHD 的時(shí)候是覺得說,其實(shí)我是個(gè)挺喜歡教書的人?,F(xiàn)在我們做教育相當(dāng)于也是教書,所以還好,繞了一大圈。
Q:其實(shí)像您一直以來做底層也做了很長(zhǎng)時(shí)間,其實(shí)也還是很關(guān)注技術(shù)。您覺得一直推動(dòng)您去做這個(gè)領(lǐng)域的動(dòng)力在哪里?
我覺得還是興趣。我覺得每個(gè)人做工作,其實(shí)最開心的就是能找到自己喜歡的東西,對(duì)吧?我覺得我還是比較幸運(yùn)的,不管是說做互聯(lián)網(wǎng)產(chǎn)品也好,還是說做教育也好,這本身都是我喜歡的。
我會(huì)覺得跟同事們一起去做團(tuán)隊(duì)的工作,把整個(gè) team 能夠找到一些好的工作方向,這是一件我覺得挺好的事。
另外一方面,關(guān)注一些技術(shù)的細(xì)節(jié),去了解一些新的技術(shù)的方向,包括實(shí)際動(dòng)手去參與一些,也是另外一種很開心的、能夠去做的事情。
我覺得對(duì)于擅長(zhǎng)技術(shù)、熟悉產(chǎn)品的、工程和設(shè)計(jì)方面的團(tuán)隊(duì)帶頭人,其實(shí)是有很多優(yōu)勢(shì)的,使得團(tuán)隊(duì)溝通中間很多事情變得更加高效和直接。就像我們很多時(shí)候討論問題的時(shí)候,比方說有一個(gè)新的領(lǐng)域,可能大家如果和非技術(shù)工程背景的一些同事聊的時(shí)候,也能聊明白,但是可能要聊很久;而在網(wǎng)易,我們?nèi)グ芽赡茴I(lǐng)域最初的技術(shù)的介紹,把最初的那幾篇論文我們找出來,可能花個(gè)兩小時(shí)讀一下整個(gè)領(lǐng)域是怎么來的,為什么有這件事情,以及說它未來一段時(shí)間可能的技術(shù)走向,就比較清楚了。我覺得這個(gè)是一個(gè)挺好的優(yōu)勢(shì)。
就像我之前讀 Elon Musk 的自傳,我覺得還是挺有共鳴的。其他人就說他們發(fā)現(xiàn)說 Musk 這個(gè)人有一個(gè)習(xí)慣,就是喜歡打破砂鍋問到底,會(huì)問到非常技術(shù)細(xì)節(jié)的東西。然后后來大家發(fā)現(xiàn),不是說 Musk 懷疑這個(gè)人不懂,而是說這是他學(xué)習(xí)的一種方式。打破砂鍋問到底,問完之后,一方面了解了團(tuán)隊(duì)的工作狀態(tài),另外一方面 Musk 自己學(xué)會(huì)了很多事情。我覺得在網(wǎng)易很多時(shí)候也是這樣的文化,我們還是非常技術(shù)的一個(gè)文化。
Q:現(xiàn)在如果請(qǐng)您分享一件印象最深刻的跟團(tuán)隊(duì)一起的事情,您會(huì)想到什么事情?
我覺得可能是我們大家一起去構(gòu)思出來當(dāng)時(shí)有道詞典的一個(gè)最主要的功能,叫“網(wǎng)絡(luò)釋義”。那是在一次會(huì)上我們討論出來的,就是說白了我們把搜索的技術(shù)應(yīng)用到讓機(jī)器編詞典這件事情上來,這個(gè)是有道辭典最主要的一個(gè)打動(dòng)用戶的功能。
這個(gè)事情印象很深刻,因?yàn)橄喈?dāng)于是有道第一個(gè)做出來一個(gè)原創(chuàng)的產(chǎn)品,而且很快的時(shí)間就有了大量的用戶。我覺得這次影響后來我們做很多事情,就像后來我們發(fā)現(xiàn)說直播這件事情對(duì)于教育非常的有用。
當(dāng)你每次遇到這樣的這樣的 moment 的時(shí)候,你會(huì)有這樣的感覺,說有可能我找到了一個(gè)很不錯(cuò)的東西。這樣的感覺,可能三次中間只有一次是對(duì)的,但是你會(huì)發(fā)現(xiàn)每次碰到這樣事情的時(shí)候,一些很聰明的人在一起,同時(shí)都會(huì)說是不是有點(diǎn)道理?可能第二天就有人去把原型已經(jīng)做好了,這個(gè)感覺是非常棒。
Q:最后,您對(duì)于整個(gè)團(tuán)隊(duì)在未來有怎樣的期許?
我們希望能夠在教育這個(gè)事情上跑得更快一些,因?yàn)榇_實(shí)是非常好的一個(gè)機(jī)會(huì),整個(gè)一個(gè)非常大的市場(chǎng),而且能夠和 AI 非常好的結(jié)合起來。所以我們希望說這邊能夠真的做出一些好的產(chǎn)品,幫助到學(xué)生們,幫助到家長(zhǎng)們,同時(shí)也讓我們自己能夠?yàn)檫@個(gè)事情而感到驕傲。
本文轉(zhuǎn)自微信公眾號(hào)“InfoQ”。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場(chǎng)。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。