2016年3月,Google旗下的DeepMind研發(fā)的AlphaGo 4:1戰(zhàn)勝了圍棋九段李世石,引起了全世界范圍的轟動(dòng)。2016年底,AlphaGo又以Master的身份復(fù)出,與中日韓數(shù)十位高手進(jìn)行快棋對(duì)決,連續(xù)60局AI大獲全勝。這回柯潔也無話可說了。
緊接著,卡內(nèi)基梅隆大學(xué)研發(fā)的Libratus又在德州撲克戰(zhàn)勝了4位全球頂級(jí)職業(yè)玩家。與圍棋不同,德州撲克屬于不對(duì)稱信息游戲,玩家要猜測(cè)對(duì)方手牌,還要猜測(cè)對(duì)方的心思。輸?shù)腻X最少的金東(Dong Kim)賽后表示,比賽之前完全沒有想到AI這么強(qiáng)大,跟開掛了一樣似乎能夠看到自己的手牌。
雖然像Google,Facebook,Microsoft,Apple這些頂尖互聯(lián)網(wǎng)公司都在大力布局AI和深度學(xué)習(xí),但是在現(xiàn)實(shí)生活中并沒有出現(xiàn)AI的大規(guī)模應(yīng)用。我們每天接觸的AI,也不過是無聊的時(shí)候調(diào)戲一下Siri。
AI之所以未能在日常生主要活中普及,很大程度上是因?yàn)榻^大多數(shù)互聯(lián)網(wǎng)公司都在脫離產(chǎn)業(yè)去研發(fā)底層算法。
換句話說,懂AI和深度學(xué)習(xí)技術(shù)的科學(xué)家,不了解產(chǎn)業(yè)內(nèi)的實(shí)際問題,而產(chǎn)業(yè)內(nèi)的企業(yè),對(duì)AI這類技術(shù)也是不敢觸及。因此我們將在日后持續(xù)與你探討AI對(duì)各個(gè)產(chǎn)業(yè)的改造,今天我們和星河互聯(lián)高級(jí)投資經(jīng)理胡天碩一起為大家分享教育+AI的機(jī)會(huì)在哪里,希望對(duì)你有所幫助。
以下,供你參考。
第一 深度學(xué)習(xí)到底是什么?
AlphaGo,Libratus還有各種自動(dòng)駕駛技術(shù)有什么共性呢?那就是運(yùn)用最新的深度學(xué)習(xí)(Deep Learning)算法。深度學(xué)習(xí)涉及到的較深的數(shù)學(xué)知識(shí),同時(shí)考慮到讀者未必有深厚的理工科背景,我盡可能以一種最通俗易懂的方式來介紹一下深度學(xué)習(xí)。
傳統(tǒng)的機(jī)器學(xué)習(xí)(Machine Learning)一般用于處理那些具有簡(jiǎn)單規(guī)律的數(shù)字。例如,已知這幾年的全球變暖,預(yù)測(cè)未來的趨勢(shì),或者是那些喜歡周杰倫歌的用戶還會(huì)喜歡誰的歌曲。而對(duì)于許多復(fù)雜的數(shù)據(jù),就很難用簡(jiǎn)單的數(shù)學(xué)公式來回答了。例如我們?nèi)绻麨樨埖臉幼诱乙粋€(gè)數(shù)學(xué)公式,那一定是非常復(fù)雜的,因?yàn)榭赡艽嬖诤谪垺棕?、花貓,坐著的、躺著的和正在捕老鼠的——然而深度學(xué)習(xí)就可以做到對(duì)圖像、聲音、文字等復(fù)雜對(duì)象的識(shí)別和分析。
深度學(xué)習(xí)這個(gè)技術(shù),我們記住以下幾點(diǎn)就行了。
1. 深度學(xué)習(xí)能夠把兩種不同的復(fù)雜的數(shù)據(jù)關(guān)聯(lián)起來
只要有足夠多的圖片標(biāo)注好其對(duì)應(yīng)的文字,通過深度學(xué)習(xí)就可以預(yù)測(cè)類似圖片所對(duì)應(yīng)的文字了。
把圖片替換成聲音,深度學(xué)習(xí)就由圖片識(shí)別變?yōu)槁曇糇R(shí)別。如果標(biāo)注的是聲音對(duì)應(yīng)的正文,就可以做語音識(shí)別,如果標(biāo)注的是講話的人,就可以做聲紋識(shí)別。把對(duì)應(yīng)的過程顛倒過來,就可以做語音合成。
不僅圖像可以和文字對(duì)應(yīng),圖像還可以和圖像自己對(duì)應(yīng),例如可以把素描的圖像與真實(shí)照片對(duì)應(yīng),或者是把真實(shí)照片與藝術(shù)照對(duì)應(yīng)。
文字也可以與文字進(jìn)行對(duì)應(yīng)。中文對(duì)應(yīng)成英文,就可以做翻譯。把長(zhǎng)的新聞報(bào)道與其總結(jié)做對(duì)應(yīng)就可以自動(dòng)生成新聞標(biāo)題。把說話與其潛在的回應(yīng)對(duì)應(yīng),就可以做聊天機(jī)器人。排列組合的情況非常多,例如自動(dòng)駕駛技術(shù)的基本原理就是圖片與方向盤/油門/剎車的對(duì)應(yīng)。當(dāng)然實(shí)踐中,并不是簡(jiǎn)單這么一下就對(duì)應(yīng)出來的,需要用到不同類型的深度學(xué)習(xí)網(wǎng)絡(luò)例如CNN/RNN/LSTM/GAN等等,在這里就不展開了,有興趣了解的可以去網(wǎng)上搜一下。
2. 相比于人的學(xué)習(xí),深度學(xué)習(xí)需要非常多倍的數(shù)據(jù)量
目前深度學(xué)習(xí)的一大瓶頸就是想要準(zhǔn)確率高,就得有大量的人工標(biāo)注數(shù)據(jù)(supervised learning)。舉一個(gè)例子,一個(gè)從未見過袋鼠的人,只需要看一只袋鼠的一兩張照片就能識(shí)別出接下來看到的照片是不是袋鼠。而在imagenet里,每一個(gè)標(biāo)注的類別(例如袋鼠、卡車)都需要出現(xiàn)上千遍,電腦才能學(xué)會(huì)。同樣,DeepMind訓(xùn)練電腦玩游戲,都是幾千盤后電腦才能學(xué)會(huì),而一般人十幾盤就已經(jīng)上手了。就算是Alphago,Libratus能下得過頂尖人類高手,可是他們跟自己下的盤數(shù)遠(yuǎn)遠(yuǎn)超過頂尖高手這輩子下的棋盤個(gè)數(shù)。
從這個(gè)角度來講,深度學(xué)習(xí)是比人要更“笨”的,在同樣數(shù)據(jù)量的情況下,深度學(xué)習(xí)算法的總結(jié)歸納能力是更弱的——未來的算法(所謂One-shot Learning)應(yīng)該會(huì)在這個(gè)方向上有所突破。
3. 不僅深度學(xué)習(xí)工具是開源免費(fèi)的,絕大多數(shù)深度學(xué)習(xí)算法甚至模型都是開源的
深度學(xué)習(xí)領(lǐng)域這幾年的發(fā)展速度迅猛,絕大多數(shù)科研從業(yè)者已經(jīng)摒棄了傳統(tǒng)發(fā)論文、審論文幾個(gè)月的周期,而是第一時(shí)間會(huì)把自己的論文公開上傳到國(guó)外的Arxiv網(wǎng)站。這大幅度加快了傳統(tǒng)科研的速度,往往剛一出來新的結(jié)果,不到幾周的時(shí)間,就有更新的結(jié)果超越了原有的算法。不僅如此,大量的代碼被開源放在Github上(之前的所有示例都可以在Github上找到開源項(xiàng)目),于是企業(yè)運(yùn)用AI的時(shí)候,絕大多數(shù)不需要去做算法上的基礎(chǔ)研究,而只需要去調(diào)研并使用國(guó)際上最新的科研結(jié)構(gòu)即可。企業(yè)完全可以把底層的深度學(xué)習(xí)工具當(dāng)做一個(gè)黑盒直接去使用,真正做的工作不過是建立足夠多的人工標(biāo)注數(shù)據(jù)以及對(duì)于深度學(xué)習(xí)原始結(jié)果的簡(jiǎn)單加工和封裝。
4. 深度學(xué)習(xí)距離真正的通用AI還很遙遠(yuǎn)
深度學(xué)習(xí)目前就像一個(gè)把3-4歲的小孩,能夠汽車的圖片,汽車這個(gè)單詞,還有汽車的聲音建立聯(lián)系。本質(zhì)上它能夠把復(fù)雜數(shù)據(jù)對(duì)應(yīng)起來,但是還有許多是做不到的,例如:
與人進(jìn)行有意義的對(duì)話
寫出具有邏輯性的文章
在即將發(fā)生車禍時(shí),做出道德判斷
編寫計(jì)算機(jī)程序
但這并不妨礙我們?cè)谶@個(gè)階段里在產(chǎn)業(yè)中使用深度學(xué)習(xí)。
第二 AI怎么和教育進(jìn)行結(jié)合?
在前一部分我們解釋了基于深度學(xué)習(xí)的AI有哪些潛力。這部分我們從圖像、聲音、文字、自適應(yīng)學(xué)習(xí)幾個(gè)不同的角度來看深度學(xué)習(xí)與教育產(chǎn)業(yè)的結(jié)合點(diǎn)有哪些。
2.1 圖像篇
目前使用圖像識(shí)別最主流的應(yīng)用就是拍照搜題,典型代表是作業(yè)幫、學(xué)霸君、小猿搜題、阿凡題……
傳統(tǒng)的K12應(yīng)用更多是停留在學(xué)生需要主動(dòng)上來去看視頻和做題,這本身對(duì)于學(xué)生來講是很難有學(xué)習(xí)場(chǎng)景的。而拍照搜題則是學(xué)生帶著問題和困惑來學(xué)習(xí)的,所以我們也看到拍照搜題App是所有K12應(yīng)用里活躍度最高的。拍照搜題的核心技術(shù)就是把圖片與文字做對(duì)應(yīng)在,然后再去做文字與已有題庫(kù)的匹配,上文中我們也提到由于開源技術(shù)的普及,圖像識(shí)別已經(jīng)不再有之前的門檻了,現(xiàn)在最大的門檻反倒是品牌和題庫(kù)的大小。
當(dāng)然拍照搜題本身是非常具有爭(zhēng)議性的。如果學(xué)生是在遇到困難并且思考后,通過手機(jī)獲得答案,這是一個(gè)很好的自主學(xué)習(xí)過程。但如果是無腦地把所有答案抄到練習(xí)冊(cè)上,就沒有任何學(xué)習(xí)意義了。不輪爭(zhēng)議的結(jié)果如何,有一件事情是值得肯定得,那就是拍照搜題打破了只有老師才有標(biāo)準(zhǔn)答案的壟斷,老師在布置作業(yè)時(shí),面臨的思考是,當(dāng)所有學(xué)生都有正確答案時(shí),怎么讓學(xué)生認(rèn)真去練習(xí)。
除了拍題識(shí)別以外,手寫識(shí)別準(zhǔn)確率也逐漸在提高,有一些專門的企業(yè)還會(huì)做針對(duì)公式、科學(xué)符號(hào)的識(shí)別,這里也就不展開了。
未來可以預(yù)見到的圖像識(shí)別與教育結(jié)合的三點(diǎn):
2.1.1 打通紙質(zhì)書籍與在線教育
幾千年來,傳統(tǒng)紙質(zhì)書籍承載了幾乎全部的人類知識(shí)。然而這些紙上的圖文知識(shí)與互動(dòng)性強(qiáng)/展現(xiàn)形式豐富的在線教育形成了明顯的反差。雖然現(xiàn)在的AR書籍都是以AR作為噱頭。但圖像識(shí)別和增強(qiáng)現(xiàn)實(shí)有潛力讓過去的紙質(zhì)書籍再次迎來新生,讓他們?cè)趶氐紫е?,成為作者與讀者、讀者與讀者之間一個(gè)全新的學(xué)習(xí)交流渠道。有了足夠強(qiáng)大的圖像識(shí)別技術(shù),書無需嵌入二維碼,書的內(nèi)容本身就是“二維碼”?!冻笮▲啞纷兂闪?D的游戲,《新概念》可以直接評(píng)判自己朗讀的水平,《紅樓夢(mèng)》的經(jīng)典段落有著上萬名讀者的批閱,《三體》則直接可以和大劉線上交流。
2.1.2 打通真實(shí)可見的世界與在線教育
微軟之前推出一個(gè)App《微軟識(shí)花》,雖然交互體驗(yàn)和識(shí)別率都不夠理想,但是它代表了一種新的學(xué)習(xí)方式,所見即所學(xué),或者即時(shí)學(xué)習(xí)(Just-in-time learning)。未來一定會(huì)有底層的技術(shù)提供商以較高的準(zhǔn)確率和較低的延遲識(shí)別畫面里的物體——學(xué)習(xí)語言和科學(xué),不再是圍繞著“單詞”或“概念”,而是更加圍繞用戶所在的真實(shí)“場(chǎng)景”。
2.1.3 動(dòng)作捕捉與在線教育
大量的體育、樂器、武術(shù)、舞蹈、繪畫難以做在線教育的根本原因是因?yàn)槿狈虒W(xué)者對(duì)學(xué)習(xí)者的姿態(tài)給出及時(shí)有效的反饋。隨著視覺動(dòng)作捕捉技術(shù)的成熟,成本逐漸下降(當(dāng)然也不排除基于可穿戴設(shè)備的方案),每一個(gè)學(xué)習(xí)者都能享受頂尖AI教練一對(duì)一的個(gè)性化指導(dǎo)。
對(duì)于教育機(jī)構(gòu)來講,動(dòng)作捕捉,尤其是人臉捕捉是保護(hù)自己IP的全新方式。機(jī)構(gòu)對(duì)名師那是又愛又恨——名師可以帶來大量?jī)?yōu)質(zhì)生源,也可以隨時(shí)把優(yōu)質(zhì)生源帶走。可是如果展現(xiàn)在學(xué)生面前的不是一個(gè)真實(shí)面孔,而是一個(gè)例如“初音未來”的虛擬IP形象,那么最終學(xué)生認(rèn)同的是這個(gè)形象而非具體的老師。
2.2 聲音篇
講完圖片接下來我們講講聲音與ai的結(jié)合點(diǎn)。目前使用聲音最主流的應(yīng)用就是語音評(píng)測(cè),也就是學(xué)生說一句話,機(jī)器給打分,典型代表是訊飛、流利說、一起作業(yè)、盒子魚……
主要的契機(jī)是不論是學(xué)生還是家長(zhǎng),還是學(xué)校和教委都逐漸對(duì)于英語口語這件事情重視起來了。雖然高考表面上是“弱化英語”了,但實(shí)際上如果要上名校,英語,尤其英語口語所占的比重是要比過去更大。而目前絕大多數(shù)市面上的口語學(xué)習(xí)App的口語評(píng)測(cè)的水平就是評(píng)判規(guī)定的一句話的發(fā)音準(zhǔn)確度,或者是半開放式的交流。而真正的難點(diǎn)是評(píng)估開放性的對(duì)話的好壞——其實(shí)這部分更多還是下一部分要講的文字識(shí)別。訊飛已經(jīng)在這個(gè)方向上與國(guó)家多個(gè)省簽約合作,嘗試做高考開放式口語題目的自動(dòng)批改,這也與接下來要介紹的NLP有直接關(guān)聯(lián)。
聲音最大的未來應(yīng)用一個(gè)是做出人耳分辨不出來的語音合成。目前Google的Wavenet已經(jīng)接近這個(gè)水平只不過運(yùn)算起來非常慢,百度近期也對(duì)這個(gè)結(jié)果的性能進(jìn)行了優(yōu)化。另一個(gè)則是把語音識(shí)別率再提升一個(gè)新的檔次。這兩項(xiàng)工作都是在可預(yù)見的兩三年內(nèi)會(huì)實(shí)現(xiàn)并且普及起來的。到時(shí)候,配合上虛擬的IP形象,許多一線教師就會(huì)逐漸意識(shí)到自己可能會(huì)從“臺(tái)前”轉(zhuǎn)向“幕后”,甚至面臨著失業(yè)的風(fēng)險(xiǎn)。
另外,聲音識(shí)別在音樂教學(xué)這個(gè)細(xì)分領(lǐng)域也會(huì)有一些應(yīng)用,這塊就不展開了。
2.3 文字篇(NLP)
文字處理,也就是所謂自然語言處理(簡(jiǎn)稱NLP),在傳統(tǒng)教育的最大應(yīng)用就是作文的自動(dòng)批改,由于市場(chǎng)較小,所以在這里也就不展開了。
我們來思考一件事情,人類99%的知識(shí)都是以文字的形勢(shì)記錄下來的。
老師講課,最重要不是他的面孔和他的音色,而是他所說的話。同理,真正的在線教育與AI的最重要的結(jié)合點(diǎn)既不是聲音,也不是圖像,而是文字。在我們之前的論述里,只要文字確定好了,我們就可以合成出最磁性的聲音配合最帥氣的虛擬臉蛋,所有在線教育并不需要“固定的視頻”。如果講課內(nèi)容,也就是文字是變化的,那就相當(dāng)于每一個(gè)學(xué)生會(huì)有一個(gè)針對(duì)性的一對(duì)一老師。
AI對(duì)于在線教育要解決的大問題是,如何把課本上死的知識(shí),變成老師給學(xué)生的對(duì)話。這里的技術(shù)挑戰(zhàn)就非常多了,包括:
1.自動(dòng)解題能力——能夠根據(jù)題目自動(dòng)得出詳細(xì)解析。
2.作業(yè)智能批改能力——這里說的不只是批改選擇判斷題,而是能夠?qū)W(xué)生的做題過程進(jìn)行批改。
3.智能答疑能力——能夠回答學(xué)科相關(guān)問題。
4.自適應(yīng)對(duì)話能力——感知到學(xué)生的學(xué)習(xí)狀態(tài)并且不斷地給出相應(yīng)的互動(dòng)。(請(qǐng)參照下文)
目前這四個(gè)問題的所有解決方案都是基于人工編寫的規(guī)則,而不是利用AI。但是這方面科技發(fā)展也非???,國(guó)外已經(jīng)有Geosolver在試圖解決第一道題,國(guó)內(nèi)也有團(tuán)隊(duì)在試圖做“高考機(jī)器人”。
2.4 自適應(yīng)篇
目前市面上的自適應(yīng)產(chǎn)品,都是基于人工梳理的教學(xué)模型+簡(jiǎn)單的數(shù)學(xué)建模——產(chǎn)品形態(tài)也比較簡(jiǎn)單,根據(jù)學(xué)生做題的對(duì)錯(cuò),評(píng)估其知識(shí)點(diǎn)的掌握程度。其中的典型就是Knewton、可汗學(xué)院和猿題庫(kù),他們所采用的IRT算法早已開源。實(shí)踐中,真正耗時(shí)耗力的是教研,而且這還是在做得非常粗糙的情況下。畢竟絕大多數(shù)自適應(yīng)學(xué)習(xí)產(chǎn)品只關(guān)心一道題的對(duì)錯(cuò),而無法判別具體“為什么”錯(cuò)了——同一道填空題,不同的學(xué)生答案老師一眼就能看出是哪一個(gè)知識(shí)點(diǎn)掌握不到家,而系統(tǒng)一遍就只能歸結(jié)于固定的一個(gè)知識(shí)點(diǎn)。至于證明題,解答題更是現(xiàn)有自適應(yīng)產(chǎn)品無法解決的。
所以真正的自適應(yīng)的依賴條件依然是之前所提到的NLP/文字處理能力。只有當(dāng)算法能夠看到題目知道正確答案,看到題目知道出題人的意思,看到錯(cuò)誤的答案就知道哪個(gè)知識(shí)點(diǎn)掌握不到家時(shí),在線教育就會(huì)出現(xiàn)全新的洗牌,自適應(yīng)也會(huì)成為所有學(xué)習(xí)的主流方式。
總結(jié):隨著人工智能的發(fā)展和普及,傳統(tǒng)的學(xué)習(xí)方式會(huì)被徹底顛覆,每一個(gè)學(xué)生會(huì)有一個(gè)一對(duì)一的專業(yè)AI老師,能夠讓其學(xué)會(huì)各種知識(shí),不再受家庭出身、學(xué)校和課本的限制。將語音合成,虛擬IP再加上nlp和自適應(yīng)學(xué)習(xí)結(jié)合形成的互動(dòng)式學(xué)習(xí)產(chǎn)品存在著巨大的商業(yè)前景。當(dāng)然這個(gè)愿景確實(shí)距離我們有一些遙遠(yuǎn),在這個(gè)愿景實(shí)現(xiàn)之前,我們依然不得不勒緊褲腰帶購(gòu)買高昂的學(xué)區(qū)房。然而現(xiàn)在的深度學(xué)習(xí)已經(jīng)在為教育產(chǎn)業(yè)提供工具,有一些企業(yè)會(huì)捷足先登,有一些企業(yè)則會(huì)踟躕不前。最終的贏家既不是那些做教學(xué)最好的企業(yè),也不是那些AI研發(fā)能力最好的企業(yè),而是那些能夠把技術(shù)和教學(xué)和產(chǎn)品和推廣融合好的企業(yè)。這也是我們最期待投資的企業(yè)。今天就講到這里,我們下周再見。
星河融快(ID:rongkuai888)將通過專業(yè)的分析,持續(xù)與你分享“有趣的”產(chǎn)業(yè)互聯(lián)網(wǎng)干貨。歡迎你在下方留言和我們分享有趣的觀點(diǎn),自薦或推薦優(yōu)質(zhì)產(chǎn)業(yè)互聯(lián)網(wǎng)項(xiàng)目,同時(shí)也歡迎你來上地18號(hào)和我們聊聊。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。