說起AI,很多人都知道AlphaGo戰(zhàn)勝過人類頂尖圍棋手李世石、柯潔。其實(shí),游戲AI也是人工智能的熱門研究領(lǐng)域。DeepMind正專攻《星際爭(zhēng)霸2》,OpenAI的人工智能也曾在Dota2上用人工智能打敗了職業(yè)玩家。騰訊也向外界透露正利用《王者榮耀》進(jìn)行AI研究。
今年年初,騰訊AI Lab科學(xué)家劉霽被《麻省理工科技評(píng)論》評(píng)為“中國區(qū)35歲以下創(chuàng)新35人”之一,獲獎(jiǎng)理由是前者的研究讓機(jī)器學(xué)習(xí)算法更加準(zhǔn)確高效,對(duì)游戲AI領(lǐng)域的研發(fā)也將進(jìn)一步拓寬人類對(duì)AI能力的認(rèn)知。
在本期《騰云》雜志新設(shè)立的“騰訊科學(xué)家”專欄中,劉霽分享了他對(duì)人工智能和機(jī)器學(xué)習(xí)前沿等問題的看法,帶我們以全新的視角認(rèn)識(shí)游戲AI。
自 1999 年起,《麻省理工科技評(píng)論》每年都會(huì)推出“35歲以下創(chuàng)新35人”(Innovators Under 35)榜單,旨在于全球范圍內(nèi)評(píng)選出被認(rèn)為最有才華、最具創(chuàng)新精神,以及最有可能改變世界的35位年輕技術(shù)創(chuàng)新者或企業(yè)家。2018年年初,該全球權(quán)威榜單正式推出中國區(qū)評(píng)選結(jié)果,34歲的騰訊AI Lab科學(xué)家劉霽入選,他正在和他的團(tuán)隊(duì)攻克多人即時(shí)戰(zhàn)略游戲的AI設(shè)計(jì)問題。他獲獎(jiǎng)的理由是:讓機(jī)器學(xué)習(xí)算法更準(zhǔn)確更高效,探索人工智能潛力的邊界,游戲AI的研發(fā)將會(huì)進(jìn)一步拓寬人類對(duì)于AI能力的認(rèn)知。
▲騰訊AI Lab科學(xué)家劉霽
日前,《騰云》在AI Lab美國西雅圖辦公室收集了劉霽。位于美國西海岸的西雅圖,是規(guī)模僅次于硅谷的高科技中心,這里云集了微軟和亞馬遜等一眾高科技企業(yè)。騰訊的辦公室位于西雅圖貝爾維尤(Bellevue)市中心。同一棟辦公樓里,還有百度、華為等中國企業(yè)的辦公室,阿里的辦公室也在附近。這恰恰是中國高科技公司紛紛積極布局AI領(lǐng)域的寫照。
“中國公司在西雅圖設(shè)辦公室,也是為了方便吸引更多優(yōu)秀的人才?!?nbsp;劉霽說。和硅谷比起來,西雅圖所在的華盛頓州沒有州稅,房?jī)r(jià)也相對(duì)較低,微軟和亞馬遜的總部都在這里,Google和Facebook在這里也設(shè)有分部。這些都成為西雅圖吸引人才的優(yōu)勢(shì)。
騰訊AI Lab副主任俞棟,之前曾在微軟研究院就職。而劉霽的另一個(gè)身份是,紐約羅切斯特大學(xué)(University of Rochester)助理教授。在騰訊AI Lab,像他這樣從學(xué)界轉(zhuǎn)身于企業(yè)的科學(xué)家并不少見,AI Lab主任張潼在回國之前,就是新澤西羅格斯大學(xué)(Rutgers University)的教授。
說起來,張潼還是劉霽的學(xué)術(shù)引路人。
▲騰訊 AI Lab 主任 張潼博士
劉霽本科畢業(yè)于中國科技大學(xué),專業(yè)是控制。2008年到美國亞利桑那大學(xué)攻讀碩士時(shí)他轉(zhuǎn)向了計(jì)算機(jī)領(lǐng)域。當(dāng)時(shí)有兩個(gè)方向可供選擇,一個(gè)是計(jì)算機(jī)圖形,另一個(gè)是機(jī)器學(xué)習(xí)。計(jì)算機(jī)圖形涉及更多的編程技能,從找工作的角度,是比機(jī)器學(xué)習(xí)更熱門的專業(yè)。劉霽當(dāng)時(shí)覺得機(jī)器學(xué)習(xí)既有意思也很具挑戰(zhàn),研究的大多是實(shí)際中提煉出的具有共性的問題,對(duì)理解知識(shí)和掌握技能都很有幫助。當(dāng)時(shí)機(jī)器學(xué)習(xí)方向的導(dǎo)師葉杰平(后回國就任滴滴研究院副院長(zhǎng))對(duì)他坦陳,機(jī)器學(xué)習(xí)方向不容易找工作,可以先從讀一兩篇論文開始。而論文的作者就是張潼。劉霽說,“機(jī)器學(xué)習(xí)領(lǐng)域的很多人都是讀張老師的論文成長(zhǎng)起來的。”
劉霽用了一個(gè)多月啃完了這篇“特別長(zhǎng),全是公式和證明”的論文。這也堅(jiān)定了他對(duì)機(jī)器學(xué)習(xí)研究的信心?!拔矣X得自己還可以??赡苣菚r(shí)候也比較年輕氣盛?!?劉霽笑著說。后來,讓他倍感幸運(yùn)的是,博士就讀的威斯康星大學(xué)聚集了機(jī)器學(xué)習(xí)領(lǐng)域的大牛和科研新星,從與這些學(xué)術(shù)導(dǎo)師共同開展的工作中他受益匪淺。
2014年博士畢業(yè)找工作時(shí),他經(jīng)歷了與三、四百人競(jìng)爭(zhēng)一個(gè)教職的慘烈競(jìng)爭(zhēng)。而他當(dāng)時(shí)完全沒有料想到以2015年AlphaGo首次戰(zhàn)勝人類棋手為轉(zhuǎn)折點(diǎn),人工智能迎來今日如此蓬勃的大發(fā)展期。
“我的工作是把實(shí)際問題抽象成數(shù)學(xué)問題,在數(shù)學(xué)層面解決這個(gè)general(一般性)的問題,再應(yīng)用到特殊的問題?!睓C(jī)器學(xué)習(xí)領(lǐng)域的多年研究,讓劉霽一直游走于計(jì)算機(jī)和數(shù)學(xué)之間,是數(shù)學(xué)家眼中的計(jì)算機(jī)人才,又是計(jì)算機(jī)人才中的數(shù)學(xué)家。
在接受《騰云》訪問時(shí),劉霽還分享了他對(duì)人工智能和機(jī)器學(xué)習(xí)前沿、為何加入騰訊、以及中美AI競(jìng)爭(zhēng)的看法。
以下為經(jīng)過編輯的收集實(shí)錄。
1異步并行算法,使機(jī)器計(jì)算效率明顯提升
騰云:你在異步并行算法創(chuàng)新等領(lǐng)域取得了不少成績(jī),也因此獲獎(jiǎng)。能否談一下異步并行算法,對(duì)于機(jī)器學(xué)習(xí)或是人工智能領(lǐng)域的發(fā)展有何意義?
劉霽:人工智能解決的是實(shí)際的問題。我覺得主要過程有兩步,第一步是把一個(gè)實(shí)際問題,比如說人臉識(shí)別,或者智能家居,還有各種各樣的應(yīng)用場(chǎng)景,轉(zhuǎn)化成一個(gè)數(shù)學(xué)問題,建立數(shù)學(xué)模型。第二步就是針對(duì)這個(gè)數(shù)學(xué)模型利用收集的數(shù)據(jù)對(duì)其求解,怎么讓計(jì)算變得更快。我的工作在這兩方面都有涉及。
計(jì)算機(jī)的計(jì)算能力呈指數(shù)級(jí)的增長(zhǎng),現(xiàn)在一臺(tái)PC的計(jì)算能力,在10-20年前,相當(dāng)于一個(gè)很大集群的計(jì)算能力。計(jì)算能力的快速增長(zhǎng)促成了AI最近的一些突破,包括AlphaGo的出現(xiàn)。這導(dǎo)致我們可以解決以前無法解決的問題。就像以前AI只能下國際象棋,下不了圍棋,因?yàn)閲宓淖兓?。而現(xiàn)在計(jì)算能力上去了,解決問題變得有可能。從而人們對(duì)人工智能有了更多的期待和想像,對(duì)并行計(jì)算效率提出了前所未有的要求。
有幾種不同的方向去提高計(jì)算效率。首先是算法設(shè)計(jì),用盡可能少的計(jì)算量求解目標(biāo)問題。這部分研究相對(duì)已經(jīng)比較成熟。第二部分的重點(diǎn)就是把計(jì)算并行化,以前大家擁有的計(jì)算資源相對(duì)很少,那時(shí)候并不存在并行的問題?,F(xiàn)在有很多機(jī)器,需要把資源全部協(xié)調(diào)起來,把它們管理好,做一個(gè)大的項(xiàng)目。其實(shí)就跟管理公司一樣,一個(gè)創(chuàng)業(yè)公司只有一二十人,對(duì)于CEO的管理能力要求沒有那么高,但是如果一個(gè)公司發(fā)展到像騰訊這樣的規(guī)模之后,你肯定得想如何把它管理好。我在并行計(jì)算方面的研究,通俗講就是當(dāng)你要去解決一個(gè)機(jī)器學(xué)習(xí)的計(jì)算問題的時(shí)候,幫助你如何把下面的計(jì)算資源分配好,整合好,設(shè)計(jì)更好的算法提高并行效率。我們提出了各種各樣的新的方法、方式,打破一些傳統(tǒng)桎梏,讓計(jì)算并行的效率得到明顯提升,而且在工業(yè)界有了很好的應(yīng)用,比如我們研究的異步并行的算法框架在當(dāng)今主流的機(jī)器學(xué)習(xí)平臺(tái)(像Tensorflow、CNTK、MXnet)都有廣泛應(yīng)用。
異步并行指的是,本地機(jī)器各自進(jìn)行自己的訓(xùn)練工作,一段時(shí)間以后將模型更新到參數(shù)服務(wù)器上,然后并不等待其他機(jī)器就進(jìn)行下一輪的本地訓(xùn)練。這個(gè)過程的好處就是快,因?yàn)楦鱾€(gè)機(jī)器之間不需要互相等待,因此異步并行被大量使用。劉霽提出的一系列異步并行算法,則解決了傳統(tǒng)同步并行算法的瓶頸問題——快機(jī)等待慢機(jī)。同時(shí),他的相關(guān)理論研究還解決了異步并行的深度學(xué)習(xí)算法中的一個(gè)開放性問題——關(guān)于異步 SGD 算法正確性和效率保證,該異步 SGD 并行算法已經(jīng)廣泛運(yùn)用于各種主流的機(jī)器學(xué)習(xí)計(jì)算軟件和平臺(tái),例如Google 開發(fā)的 Tensorflow、微軟開發(fā)的 CNTK以及亞馬遜開發(fā)的 MXNet 等?!堵槭±砉ぜ夹g(shù)評(píng)論》
2人工智能研究,要解決好一般性問題
騰云:人工智能領(lǐng)域還有什么你覺得比較重要的研究方向嗎?
劉霽:人工智能的內(nèi)涵和外延太廣,定義也相對(duì)模糊,我恐怕講不好??赡軓臋C(jī)器學(xué)習(xí)的角度來講,對(duì)我來說可能更合適一些。機(jī)器學(xué)習(xí)傳統(tǒng)上主要集中解決的問題從決策的角度來看都是靜態(tài)的,比如AI幫助我判斷圖片里是不是有一只貓,這是一個(gè)靜態(tài)的決策?,F(xiàn)在很多復(fù)雜的AI問題以及現(xiàn)實(shí)的問題中的決策需要是動(dòng)態(tài)的,比如說要做股票投資,目標(biāo)并非是在某個(gè)時(shí)刻收益最大化,你還要考慮風(fēng)險(xiǎn)等各方面的因素,實(shí)現(xiàn)在一段長(zhǎng)時(shí)間內(nèi)總收益最大化。再比如下圍棋,每一步可能重要,單步的得失并不是你的最終目的,最終目的是要贏整盤棋。
▲AlphaGo大戰(zhàn)李世石
這類問題的難點(diǎn)在于每個(gè)決策前后的相關(guān)性,你下一刻的決定,其實(shí)取決于之前的一系列決定。從技術(shù)上講,研究如何解決這種動(dòng)態(tài)最優(yōu)化策略的問題會(huì)成為將來最有挑戰(zhàn)的問題。為了解決這類問題,傳統(tǒng)AI有很多基于搜索的方法。強(qiáng)化學(xué)習(xí)也是一類方法。我也做了一些關(guān)于強(qiáng)化學(xué)習(xí)的工作,拿到過Facebook的最佳學(xué)生論文。盡管有AlphaGo的成功,但是總的來說都還不令人滿意,距離系統(tǒng)化地解決這類問題,還有很多工作要做。
騰云:這是屬于人工智能現(xiàn)在比較核心也是比較基礎(chǔ)的研究。
劉霽:沒錯(cuò),我們其實(shí)要解決的是一般化的問題,一般化的問題是現(xiàn)實(shí)中各種問題的抽象,比如人臉識(shí)別,安防的檢測(cè),甚至可能是完全不相關(guān)的問題,可是如果你把它抽象成一個(gè)數(shù)學(xué)問題,其實(shí)它是同一個(gè)數(shù)學(xué)問題,我們的目的是要把這個(gè)數(shù)學(xué)問題解決好。為下一個(gè)問題的解決提供重要的方法和思路。
騰云:為什么在學(xué)術(shù)休假期間選擇加入騰訊?
劉霽:騰訊AI Lab在張(潼)老師和俞(棟)老師的帶領(lǐng)下有著非常好的基礎(chǔ)研究氛圍,同時(shí)還能接觸到實(shí)際的業(yè)務(wù)問題。過去我只能在紙上推導(dǎo)的東西現(xiàn)在有機(jī)會(huì)實(shí)現(xiàn)。不論是從個(gè)人影響,還是說個(gè)人體驗(yàn),都更有意義。因?yàn)橐龀梢患虑椋还馐且鉀Q一般性的理論問題,還要把資源整合好,要考慮很多細(xì)枝末節(jié)的東西。這都是更大的挑戰(zhàn)。好比一個(gè)管理學(xué)家可以做很多年的管理研究,做得很成功,但是你讓他去管一個(gè)公司,卻未必非常成功。
AlphaGo很厲害,是厲害在算法嗎?我覺得不完全是,雖然對(duì)外宣傳是強(qiáng)調(diào)算法的突破。它絕對(duì)不是在技術(shù)某一個(gè)點(diǎn)上獲得突破,而是能夠把整個(gè)系統(tǒng)工程管理好,能夠激發(fā)每個(gè)人的潛能,一步步地突破,解決好問題。學(xué)術(shù)研究本身可能就是鉆研一個(gè)小問題,但那不足以支撐一個(gè)大的項(xiàng)目。工業(yè)界的工作是會(huì)讓人接觸一個(gè)龐大的項(xiàng)目,把事情做成功,這是完全不一樣的體驗(yàn)。
3游戲是現(xiàn)實(shí)問題的投影
騰云:DeepMind團(tuán)隊(duì)在研究游戲AI如何在《星際爭(zhēng)霸》(StarCraft)這款游戲中戰(zhàn)勝人類。騰訊研究游戲AI的目的是什么?
劉霽:我理解最重要的目的并不一定是要打敗人類,而是看中它的現(xiàn)實(shí)意義。游戲里有很多小的場(chǎng)景,都是我們真實(shí)生活當(dāng)中一些重要問題的投影。比如說,游戲里的多人即時(shí)戰(zhàn)斗,反映了現(xiàn)實(shí)生活中的足球、籃球等各種球類運(yùn)動(dòng),我們?cè)趺窗阉龊谩?/p>
再舉一個(gè)例子,比如《星際爭(zhēng)霸》里你的工兵需要采礦,采哪種礦,如何調(diào)配資源,才會(huì)達(dá)到累計(jì)收益最大化。在現(xiàn)實(shí)中這就是投資的問題,你買哪支股票,賺了錢你是用來買房,還是買更多股票,這其實(shí)是投資組合的問題。游戲是對(duì)現(xiàn)實(shí)問題的抽象,所以說解決好游戲的問題,對(duì)很多現(xiàn)實(shí)問題都有幫助和借鑒,這是游戲的現(xiàn)實(shí)意義,也是它有意思的地方。
▲游戲AI更多是輔助人類,提升用戶體驗(yàn)
騰云:回到游戲本身,如果說游戲AI把人打敗了,是否會(huì)降低人們玩游戲的滿足感。通過游戲AI是否能夠幫助提升游戲的體驗(yàn),或者它的復(fù)雜程度?
劉霽:首先,人打不過機(jī)器其實(shí)也正常。人是會(huì)做加減法,但肯定做不過電腦。隨著電腦計(jì)算能力提高,計(jì)算速度加快,AI用數(shù)學(xué)的方式把游戲也變成一個(gè)數(shù)據(jù)的問題,這時(shí)人算不過電腦就很正常。
我理解游戲AI更多是輔助人類,提升用戶體驗(yàn)。比如《王者榮耀》是5V5的游戲,可以用AI替換掉掉線的玩家,讓游戲更加公平地得以繼續(xù);再比如圍棋AI對(duì)選手在線定段,輔助提高。
騰云:你平時(shí)生活中是游戲玩家嗎?
劉霽:是的,我玩游戲,我從中學(xué)就開始玩《星際爭(zhēng)霸》,玩了有20年了。做游戲AI,必須要懂游戲。就像AlphaGo也要找很多職業(yè)棋手去給他們指導(dǎo)。我們跟國內(nèi)同事開會(huì)的時(shí)候會(huì)說,大家都要把游戲玩到一定水平才能真正進(jìn)入這個(gè)角色。
騰云:現(xiàn)在中國家長(zhǎng)普遍還是覺得打游戲是不太好的一件事。你從中學(xué)時(shí)開始打游戲,還是學(xué)霸,看來也沒有影響學(xué)習(xí)。
劉霽:小孩都愛玩游戲,我自制力還可以,說不玩就不玩了。中國家長(zhǎng)將游戲妖魔化,老是怪游戲怎么怎么樣,我個(gè)人認(rèn)為游戲本身并沒有好壞之分,在于你使用它的方式 。有人總抱怨小孩子打游戲,一看父母天天在打麻將,在外面玩,你能怪孩子嗎? 父母沒法以身作則,給孩子做榜樣。孩子就算不沉迷于游戲,也會(huì)沉迷于其他的東西。相反如果能夠利用好游戲,正確引導(dǎo)對(duì)孩子成長(zhǎng)、IQ和EQ的提升都大有裨益。
4提升游戲競(jìng)技性,會(huì)對(duì)孩子產(chǎn)生更多的正面意義
騰云:游戲?qū)δ愕恼鎯r(jià)值在哪里?
劉霽:我高中的班級(jí)里,成績(jī)好的玩游戲都還可以,如果玩游戲水平特別差,成績(jī)卻特別好的,很少看到。游戲小孩都愛玩,大人其實(shí)也愛玩,關(guān)鍵在引導(dǎo)。玩游戲不僅是出于娛樂的目的,我的建議是提高它的競(jìng)技性,削弱娛樂性。其實(shí)這對(duì)于小孩的成長(zhǎng)有很大幫助,對(duì)我個(gè)人就是非常大的幫助。
簡(jiǎn)單來說,娛樂性游戲就是勝負(fù)更多取決于在上面耗費(fèi)的時(shí)間和隨機(jī)性。競(jìng)技性游戲需要你積極地思考參與,憑借你的能力和水平,才能取得優(yōu)勢(shì)或者勝利。
▲《王者榮耀》中的射手英雄
增強(qiáng)游戲的競(jìng)技性對(duì)于游戲健康地發(fā)展很有幫助,對(duì)于小孩的鍛煉也非常大。像孩子參加奧數(shù)和其它體育比賽,這些也都是競(jìng)技性的。孩子也可以在玩的過程中,想辦法解決問題,提升自己,這是提高他個(gè)人能力的一種手段。同時(shí)對(duì)人的心態(tài)也非常有幫助。競(jìng)技性的游戲,輸了你沒法去怪別人,也不能說自己運(yùn)氣不好。輸了就是因?yàn)槟銓?shí)力問題。我觀察到現(xiàn)實(shí)中教育子女經(jīng)常出現(xiàn)的一個(gè)問題是,小孩事情沒做成,首先不是想自己或者孩子哪里做得不好,而往往是責(zé)怪老師。競(jìng)技性游戲提供了一個(gè)非常好的公平場(chǎng)景,如果你輸了,就是能力沒有對(duì)手強(qiáng),沒有什么好怪的。
游戲的競(jìng)技性和勝負(fù)感加強(qiáng)的時(shí)候,會(huì)幫助你提升注意力,輸了你需要學(xué)會(huì)控制心態(tài),繼續(xù)下半場(chǎng)比賽。很多人在日常生活中可能很少有機(jī)會(huì)接受這種面對(duì)大起大落的心態(tài)的培養(yǎng)。對(duì)我影響最深的就是在激烈的對(duì)抗當(dāng)中,職業(yè)選手的心態(tài)非常平靜,一場(chǎng)比賽結(jié)束后,給兩邊選手每人一個(gè)鏡頭,你看不出誰贏誰輸,都是一樣的表情,這就是修為。
我自己也深有體會(huì),輸了我會(huì)很急躁,每個(gè)人一開始都這樣。我覺得我從游戲中學(xué)到的,首先是想自己哪里玩得不好。第二我會(huì)去看回放錄像,看哪里我還可以提高。復(fù)盤是讓一個(gè)人不斷反思自己、讓自己提高的很好的途徑。第三心態(tài)要好,你這一場(chǎng)輸了,下一場(chǎng)你的心態(tài)要調(diào)整得更好,所謂兵敗如山倒,其實(shí)是因?yàn)槟愕男膽B(tài)崩了。人很容易碰到挫折就一蹶不振,破罐破摔。
所以在這些方面,游戲其實(shí)是能夠幫助人的,如果家長(zhǎng)有足夠的智慧去引導(dǎo),玩游戲就會(huì)對(duì)孩子有正面的意義。如果游戲只強(qiáng)調(diào)娛樂性,輸贏都靠運(yùn)氣、靠花時(shí)間多,負(fù)面效應(yīng)會(huì)比較大,而當(dāng)游戲成為競(jìng)技性的時(shí)候,很多小孩可能就選擇放棄了。真正的職業(yè)選手要經(jīng)過非常辛苦的訓(xùn)練,付出很多心血的。我相信頂級(jí)的職業(yè)選手,就算不從事競(jìng)技游戲這個(gè)行業(yè)了,他們也有能力在其他領(lǐng)域生存下去。
騰云:怎么看中美AI競(jìng)爭(zhēng)各自的優(yōu)勢(shì)和劣勢(shì)。
劉霽:美國起步比較早,相對(duì)來說美國人更沉得住氣一些,研究更厚實(shí)一些,這是美國的優(yōu)勢(shì)。中國的社會(huì)更加浮躁,一定要立竿見影才有興趣繼續(xù)弄下去。但是我覺得中國的優(yōu)勢(shì)更明顯,第一物理環(huán)境上,中國的人口更多、數(shù)據(jù)量更大,現(xiàn)在的AI落地的場(chǎng)景,其實(shí)主要還是數(shù)據(jù)驅(qū)動(dòng)的。中國的醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù),都超越美國幾個(gè)量級(jí)。美國找不到幾個(gè)企業(yè),有騰訊這么多用戶,這是天然的優(yōu)勢(shì)。從人才來說,中國現(xiàn)在也有大批的人才,包括海外的學(xué)者的加入,從技術(shù)和研究水平,中國趕超得很快。在一些個(gè)別的問題上,比如在人臉識(shí)別、安防等方面,中國甚至有領(lǐng)先優(yōu)勢(shì)。而且中國人相對(duì)來說比美國人更能吃苦。所以總體來講我個(gè)人更看好中國AI的未來。
本文轉(zhuǎn)自微信公眾號(hào)“騰云”,作者徐可(系《騰云》高級(jí)編輯)。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場(chǎng)。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。