芥末堆芥末堆

【GET2017】微軟崔宏禹:神經(jīng)腦科學(xué)未突破之前,深度學(xué)習(xí)仍面臨瓶頸

作者:寧寧 發(fā)布時(shí)間:

【GET2017】微軟崔宏禹:神經(jīng)腦科學(xué)未突破之前,深度學(xué)習(xí)仍面臨瓶頸

作者:寧寧 發(fā)布時(shí)間:

摘要:機(jī)器學(xué)習(xí)以統(tǒng)計(jì)理論為基礎(chǔ),基于大批量的數(shù)據(jù)找到背后的規(guī)律。

20171116114118-874bd445-me.jpg

(崔宏禹分享現(xiàn)場(chǎng))

11月16日,在GET2017教育科技大會(huì)“人工智能論壇”上,微軟中國(guó)技術(shù)總監(jiān)崔宏禹分享了他對(duì)深度學(xué)習(xí)的理解,并介紹了微軟在人工智能領(lǐng)域研究的三個(gè)方向。微軟1000多位工程師開(kāi)發(fā)了一些認(rèn)知服務(wù)與機(jī)器人框架,向所有開(kāi)發(fā)者開(kāi)放。

崔宏禹說(shuō),機(jī)器學(xué)習(xí)不是一個(gè)新課題,它是以統(tǒng)計(jì)理論為基礎(chǔ)的學(xué)科?;诂F(xiàn)有、過(guò)去大批量的數(shù)據(jù),通過(guò)統(tǒng)計(jì)學(xué)原理找到數(shù)據(jù)背后的規(guī)律。認(rèn)知服務(wù)實(shí)際上是機(jī)器深度學(xué)習(xí)的結(jié)果。他介紹微軟的認(rèn)知服務(wù)包括視覺(jué)、語(yǔ)言、語(yǔ)音、搜索知識(shí)。

他特別強(qiáng)調(diào)視覺(jué)在個(gè)性化學(xué)習(xí)的重要性。在機(jī)器與人的交互過(guò)程中,通過(guò)視覺(jué)分析識(shí)別當(dāng)前學(xué)習(xí)者處于的情緒狀態(tài),及時(shí)給教學(xué)者反饋。但他也坦然,五六十年代神經(jīng)腦科學(xué)就在對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,但至今沒(méi)有大的突破。在神經(jīng)腦科學(xué)沒(méi)有突破之前,基于大量數(shù)據(jù)做視覺(jué)和情緒識(shí)別分析仍然很難。崔宏禹認(rèn)為,這依賴于所有科學(xué)家,包括計(jì)算科學(xué)、數(shù)據(jù)科學(xué)、神經(jīng)科學(xué)、腦科學(xué)一起努力,才能保證未來(lái)深度學(xué)習(xí)的過(guò)程。

以下是崔宏禹演講實(shí)錄(芥末堆略有刪減):

微軟的認(rèn)知服務(wù)和機(jī)器人框架

各位大家早上好,非常榮新今天能有機(jī)會(huì)在GET大會(huì)上給大家做一個(gè)介紹,從技術(shù)和平臺(tái)角度來(lái)看,我們?cè)谌斯ぶ悄苓@兩年在做什么,人工智能到底能給我們帶來(lái)一些什么樣的改變,或者說(shuō)人工智能在現(xiàn)階段的研究過(guò)程當(dāng)中,還存在哪些不足。我們可以把這些技術(shù)怎么更好用到教育和產(chǎn)業(yè)當(dāng)中去。

我們現(xiàn)在講人工智能,目前為止我認(rèn)為都還在機(jī)器智能這樣一個(gè)階段。是基于大量數(shù)據(jù),以及所謂深度學(xué)習(xí)算法基礎(chǔ)之上出來(lái)的機(jī)器智能的說(shuō)法。為什么我特別說(shuō),我不愿意過(guò)分的強(qiáng)調(diào)人工智能。因?yàn)閺?0年代,人對(duì)神經(jīng)科學(xué)的認(rèn)知一直到現(xiàn)在,沒(méi)有特別理論上大的突破。所以就造成了我們對(duì)整個(gè)人工智能領(lǐng)域一些相關(guān)產(chǎn)業(yè)上可能會(huì)有一點(diǎn)誤解。但這不妨礙我們?cè)谌斯ぶ悄茴I(lǐng)域有一些現(xiàn)成的內(nèi)容和一些現(xiàn)成的場(chǎng)景出現(xiàn)。

微軟人工智能所謂三重境界,是我們超過(guò)1000多位工程師所承載的這樣一個(gè)平臺(tái),給大家提供的福利。很多人在講人工智能的時(shí)候都在說(shuō)一個(gè)問(wèn)題,人工智能是很高大上的東西,我們到底該怎么用,我們能不能用。對(duì)今天在座的很多老師和很多學(xué)生,還有很多教育產(chǎn)業(yè)從業(yè)者來(lái)說(shuō),人工智能很高大上的東西,怎樣盡快地享受到人工智能給我們帶來(lái)的福利。

這張圖是模仿整個(gè)人的思維構(gòu)造。具體就是人的“身體發(fā)膚”,包括我們的神經(jīng)、血液和所有的器官。在這個(gè)基礎(chǔ)之上,我們才有認(rèn)知,常用的聽(tīng)說(shuō)讀寫(xiě)看。但是人還有另外一些感覺(jué)叫認(rèn)知,我能夠知道你這會(huì)兒是高興的,我知道你是沮喪的,你這會(huì)兒可能是無(wú)所謂的表情。所以在這個(gè)基礎(chǔ)上我們要有認(rèn)知。認(rèn)知基礎(chǔ)之上,我們抽取到自然界和社會(huì)當(dāng)中所有的信息以后、感知到信息以后,我們才有一些創(chuàng)造,這是完全基于數(shù)據(jù)的創(chuàng)造。

在數(shù)據(jù)的基礎(chǔ)之上,我們通過(guò)加工產(chǎn)生一些新的智慧,我們發(fā)明了一些新的算法、發(fā)明了一些新的產(chǎn)品,這是人的過(guò)程。相對(duì)于機(jī)器來(lái)說(shuō)是這樣一個(gè)過(guò)程,底層有一個(gè)非常龐大的計(jì)算資源。不管是云計(jì)算平臺(tái)還是自有的數(shù)據(jù)中心計(jì)算平臺(tái)都離不開(kāi)這個(gè)。

這個(gè)基礎(chǔ)之上我們開(kāi)發(fā)一些認(rèn)知服務(wù)和機(jī)器人框架。這是微軟的說(shuō)法。什么是認(rèn)知服務(wù)?一個(gè)小朋友看到一張照片,能準(zhǔn)確說(shuō)出這張照片上有一只狗、兩只貓,很簡(jiǎn)單。但是如果讓機(jī)器讀這張照片上有幾只貓、幾只狗,狗的品種是什么,這是很難的事情。能夠?qū)懗鏊惴?,能夠?zhǔn)確地分辨照片上有一只貓兩只狗三張桌子四把椅子這樣的信息出來(lái)。我有個(gè)同事跟我說(shuō),我有一個(gè)很簡(jiǎn)單的分法,能夠?qū)戇@個(gè)算法的人在北京年薪起碼在100-150萬(wàn)以上。

我們現(xiàn)在認(rèn)知服務(wù),想法很簡(jiǎn)單,我們想讓小朋友都能夠準(zhǔn)確的判定內(nèi)容的過(guò)程。讓它平民化,讓大家通過(guò)簡(jiǎn)單的API方式就能夠用到。這是我們的認(rèn)知服務(wù),加上一個(gè)機(jī)器人框架以后,更方便做溝通渠道交流。

除了這個(gè)以外,我們還有一些機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的方法。所有學(xué)習(xí)過(guò)程我們要有大量數(shù)據(jù),大量數(shù)據(jù)背后要做計(jì)算,計(jì)算的結(jié)果才能給我們下一步教學(xué)行動(dòng)給出一個(gè)建議。所有的過(guò)程,都是在這個(gè)基礎(chǔ)之上的。

視覺(jué)在個(gè)性化學(xué)習(xí)中的應(yīng)用

實(shí)際上機(jī)器學(xué)習(xí)不是一個(gè)新的課題,它是以統(tǒng)計(jì)理論為基礎(chǔ)的學(xué)科,基于現(xiàn)有的、過(guò)去大批量的數(shù)據(jù)之上,通過(guò)一些統(tǒng)計(jì)學(xué)的原理,找到大量數(shù)據(jù)背后的規(guī)律。比如說(shuō)我們能找出溫度和濕度,還有房間空間大小變化的規(guī)律,那我預(yù)測(cè)未來(lái)進(jìn)入到一個(gè)新的空間里面以后,它的溫度和濕度的變化情況。

我剛才本來(lái)想脫口而出,尿布和啤酒的故事,這個(gè)故事講得太多了。基于統(tǒng)計(jì)學(xué)的方式,能夠?qū)崿F(xiàn)一些基本的算法。有數(shù)據(jù)表明,你的數(shù)據(jù)超過(guò)100萬(wàn)的話,不管在考試題目判斷上,還是在學(xué)習(xí)計(jì)劃行動(dòng)上,人是可以接受的。如果你的樣本數(shù)據(jù)超過(guò)1000萬(wàn),不管是語(yǔ)音訓(xùn)練、口型的訓(xùn)練,還是試卷的一些判斷,或者是參加考試。你的準(zhǔn)確率很有可能超過(guò)人的判斷力。

我們微軟亞洲研究院今年6月份剛剛發(fā)布,我們對(duì)英語(yǔ)語(yǔ)音爭(zhēng)取的識(shí)別率,錯(cuò)誤率已經(jīng)降到4%以下,而一般來(lái)講人的差錯(cuò)率在5.8%-6%。也就是說(shuō)遠(yuǎn)遠(yuǎn)超過(guò)人的識(shí)別率了。這都是基于學(xué)習(xí)和數(shù)據(jù)分析基礎(chǔ)之上,再加上我們現(xiàn)在新算法的突破。利用深度學(xué)習(xí)的基礎(chǔ),我們不停深度的訓(xùn)練,完成了以學(xué)習(xí)驅(qū)動(dòng)學(xué)習(xí)的過(guò)程。

這是微軟人工智能的三重境界。同樣我想跟大家說(shuō),這也是業(yè)界在人工智能研究方面的三個(gè)主要方向。在這個(gè)方向的認(rèn)知服務(wù)上,我們提供了視覺(jué)、語(yǔ)言、語(yǔ)音、搜索知識(shí)等服務(wù)和方法。

我想重點(diǎn)給大家強(qiáng)調(diào)一下視覺(jué),為什么要強(qiáng)調(diào)視覺(jué)?就像剛才講的一樣,一方面要知道你在什么地方學(xué),你學(xué)的過(guò)程中情緒化是什么樣的。比如說(shuō)我們要定制一個(gè)個(gè)性化學(xué)習(xí)課程,比如初中生要學(xué)一元二次方程。那一元二次方程每個(gè)人的學(xué)法是不一樣的,如果老師課堂教學(xué)很清楚知道這個(gè)課堂45個(gè)孩子每個(gè)人大概的表現(xiàn)是什么樣子。如果當(dāng)我在上面講的時(shí)候,底下所有學(xué)生都是呆若木雞時(shí),我認(rèn)為我的教學(xué)方法可能有問(wèn)題,或者這個(gè)學(xué)生掌握的有問(wèn)題。而不僅僅只是從課后的練習(xí)獲取整個(gè)教學(xué)的過(guò)程。整個(gè)教學(xué)交互的過(guò)程中,當(dāng)我講的過(guò)程當(dāng)中,如果所有學(xué)生面部表情都是非常輕松的,那我認(rèn)為這個(gè)課非常成功,學(xué)生掌握的也非常好,我可能快速的就過(guò)去了。

視覺(jué)來(lái)干什么事情呢?就是能夠在機(jī)器和人交互過(guò)程中,通過(guò)機(jī)器的方法判斷,當(dāng)前聽(tīng)眾處于什么樣的狀態(tài)。他到底是非常高興的,還是一個(gè)非常痛苦的學(xué)習(xí)過(guò)程。所以,這個(gè)很簡(jiǎn)單,我能告訴大家的事情是,我們通過(guò)簡(jiǎn)單的API,能夠把一個(gè)教室當(dāng)中的學(xué)生,45個(gè)孩子,所有面部表情都能識(shí)別出來(lái),都知道他當(dāng)前處在一個(gè)什么樣的狀態(tài)。通過(guò)這些信息的加入,能夠精準(zhǔn)化衡量教學(xué)的結(jié)果,這是一個(gè)認(rèn)知服務(wù)。

我想通過(guò)一個(gè)視頻給大家看一下,認(rèn)知服務(wù)到底怎么來(lái)看待。這個(gè)視頻當(dāng)中的主人公是我在美國(guó)的同事,他是一位盲人,但他是微軟的程序員。因?yàn)楝F(xiàn)有技術(shù),通過(guò)簡(jiǎn)單聽(tīng)說(shuō)讀寫(xiě),能夠讓他感知到鍵盤(pán)應(yīng)該怎么敲,一本書(shū)寫(xiě)的是什么。但是當(dāng)他跟他的同事開(kāi)會(huì)的時(shí)候,他沒(méi)有辦法判斷,沒(méi)有辦法知道對(duì)面同事是什么表情。就像這個(gè)一樣,在他面前這個(gè)人到底是做什么。光聽(tīng)好像是有嘩啦啦的聲音,這個(gè)聲音到底是什么,他不知道。也就是說(shuō)他不知道他周圍的環(huán)境。他可以正常去寫(xiě)程序,但是他不知道周圍的環(huán)境。他也不知道他在開(kāi)會(huì)的過(guò)程中,跟他同事溝通的過(guò)程當(dāng)中,他同事到底是贊同的,還是反對(duì)的。

他就通過(guò)微軟的認(rèn)知服務(wù),視覺(jué)服務(wù),很清楚的感知到他對(duì)面的聽(tīng)眾是什么樣的反饋,他能知道對(duì)面有一男一女,年齡大概多少,對(duì)他剛才講的話是贊同,還是吃驚,還是什么。這代表下一步才能有反饋。

所以,只有當(dāng)你把你周圍環(huán)境都感知進(jìn)來(lái)的時(shí)候,才掌握了這個(gè)世界,才掌握了學(xué)習(xí)過(guò)程當(dāng)中所有的環(huán)節(jié),才能很準(zhǔn)確判斷下一步該給這些學(xué)生一些什么內(nèi)容。我們?cè)谠u(píng)價(jià)人和人之間溝通的過(guò)程中,絕對(duì)不只有聽(tīng)說(shuō)讀寫(xiě),情緒是很重要的。但這個(gè)情緒恰恰就是我剛才講的,在我們神經(jīng)腦科學(xué)的發(fā)展沒(méi)有突破之前,很可惜。五六十年代對(duì)人的神經(jīng)網(wǎng)絡(luò)有研究,到現(xiàn)在為止沒(méi)有特別大的突破,沒(méi)有突破之前是很難的。我們也只是嘗試,通過(guò)大量的數(shù)據(jù)得到了這個(gè)結(jié)果,但是這個(gè)結(jié)果遠(yuǎn)遠(yuǎn)不夠的。

深度學(xué)習(xí)依賴多領(lǐng)域科學(xué)突破

同樣還有深度學(xué)習(xí),我羅列了市場(chǎng)上用得最多的幾個(gè)深度學(xué)習(xí)的開(kāi)源算法,包括微軟的CNTK,包括Caffe、TensorFlow,這是微軟、亞馬遜、谷歌,以及Facebook這四家最主流的業(yè)界里做人工智能基礎(chǔ)研究的科學(xué)家貢獻(xiàn)出來(lái)的深度學(xué)習(xí)算法。它利用了龐大的GPU計(jì)算能力,以及FPG的計(jì)算能力才能實(shí)現(xiàn)。但是現(xiàn)在已經(jīng)到了一個(gè)瓶頸。以微軟的CNTK為例,我們現(xiàn)在152層的深度神經(jīng)網(wǎng)絡(luò)。為什么這么多層次,我剛才講過(guò)了,層次越深,代表一張照片中信息是越多的。但是現(xiàn)在已經(jīng)到了一個(gè)瓶頸,我們用再多的計(jì)算能力,再快的計(jì)算能力,有一些內(nèi)容還是分別不出來(lái)。

這依賴于所有科學(xué)家,包括計(jì)算科學(xué)、數(shù)據(jù)科學(xué)、神經(jīng)科學(xué)、腦科學(xué)一起去做這件事,才能保證未來(lái)深度學(xué)習(xí)的過(guò)程。

深度學(xué)習(xí)到底能帶來(lái)什么?我剛才一直強(qiáng)調(diào)人和機(jī)器之間的交流,人和人之間情緒的判斷。那怎么才能達(dá)到一個(gè)更自然的環(huán)境呢?這是微軟小冰,它會(huì)唱歌,尤其會(huì)寫(xiě)詩(shī),剛剛也出版了一本詩(shī)集《陽(yáng)光失去了玻璃窗》,朦朧派的詩(shī)集。人工美少女小冰的進(jìn)化完完全全是人工智能的背后,深度學(xué)習(xí)背后對(duì)它的訓(xùn)練。

訓(xùn)練的結(jié)果是什么呢?大家先聽(tīng)一段,這是去年4、5月時(shí)小冰剛第一版出來(lái),它全合成唱歌的聲音。它不是想模仿某一個(gè)人的個(gè)性,如果小冰要去模仿,直接把張韶涵的原聲采集過(guò)來(lái)學(xué)習(xí),可能就很清楚了。但是我們特意不想把它模仿某一個(gè)特定的個(gè)性,我們就想讓它就是它,以它的個(gè)性方式來(lái)唱出這首歌。一年前的這首歌不知道大家聽(tīng)出來(lái)沒(méi)有,金屬音特別重,變化之間特別深。從去年到今年9月,持續(xù)一年訓(xùn)練以后,我們?cè)賮?lái)聽(tīng)聽(tīng)今年它唱這首歌時(shí)是什么樣的聲調(diào)。仔細(xì)想想剛才的聲音,它非常接近人的自然發(fā)音,尤其音調(diào)之間起承轉(zhuǎn)合,非常符合人的聲音。

這個(gè)過(guò)程就是剛才講的大量數(shù)據(jù),大量人發(fā)聲的過(guò)程,大量人音調(diào)之間轉(zhuǎn)合的方式,給它做訓(xùn)練,最后得到這樣一個(gè)結(jié)果。我們能不能在未來(lái),跟AI相關(guān)的課程學(xué)習(xí)當(dāng)中,跟我對(duì)話的機(jī)器老師、AI老師,能不能它的語(yǔ)調(diào)自然一點(diǎn)。我想這就是一個(gè)非常好的例子。

所有背后的技術(shù),最基礎(chǔ)的是認(rèn)知服務(wù),認(rèn)知服務(wù)實(shí)際上是深度學(xué)習(xí)的結(jié)果,誰(shuí)都可以去用,任何一個(gè)開(kāi)發(fā)者都可以去用。你也可以自己訓(xùn)練出另外一個(gè)小冰出來(lái),所以這是一個(gè)基礎(chǔ)的架構(gòu)和服務(wù)。

兩年前我們和英國(guó)BBC合作,這個(gè)板子叫邁克Bid,現(xiàn)在在國(guó)內(nèi)的各大電商網(wǎng)站都能買到,很便宜,很薄的板子。它有LED顯示能夠加一些傳感器,最右上角這塊我們結(jié)合了一個(gè)在線編程的界面。談到編程大家不要錯(cuò)誤理解,我一定要學(xué)C++或者是JAVA之類的語(yǔ)言。這個(gè)編程完全面向中小學(xué)生甚至是幼兒園。它是插件式的。我們不要去寫(xiě)Hello  Word,也不要寫(xiě)if什么。我想讓這個(gè)板子出一個(gè)笑臉出來(lái),我就把笑臉插進(jìn)去;我想讓這個(gè)板子出一個(gè)哭臉,我就把這個(gè)哭的放進(jìn)去;我想讓板子獲取溫度,我就把溫度的標(biāo)簽給加上去。非常簡(jiǎn)單。它背后就是我們認(rèn)知服務(wù)里面的API,再加上微軟同事和BBC同事他們一起做的這樣一個(gè)架構(gòu)。

這里我想傳遞另外一個(gè)信息,我們不是想教中小學(xué)生去學(xué)編程,我們想改變?nèi)斯ぶ悄苷J(rèn)知的一個(gè)思維方式。人工智能在各個(gè)行業(yè)里的使用可能會(huì)在未來(lái)改變我們的思維模式,由確定性思維模式改變?yōu)椴淮_定的思維模式。這種思維模式是需要訓(xùn)練的。我們現(xiàn)在很多人很難馬上改過(guò)去,你不經(jīng)過(guò)訓(xùn)練習(xí)慣是改不了的。思維模式也是一樣。我們想通過(guò)機(jī)器板卡和外界感知這幾個(gè)方面,從小朋友訓(xùn)練人工智能給我們帶來(lái)的所謂不確定思維方式。

人工智能給我們帶來(lái)了很大便利,甚至改變了我們的行業(yè)。我想送給大家一句話,今天的異想天開(kāi)將是明天的常態(tài)。人工智能會(huì)給所有行業(yè)帶來(lái)改變,人工智能也會(huì)對(duì)我們的思維模式產(chǎn)生改變。謝謝大家!

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點(diǎn)擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫(xiě)信息告訴我們。
來(lái)源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 【GET2017】微軟崔宏禹:神經(jīng)腦科學(xué)未突破之前,深度學(xué)習(xí)仍面臨瓶頸分享二維碼