2016年3月,Google旗下的DeepMind研發(fā)的AlphaGo 4:1戰(zhàn)勝了圍棋九段李世石,引起了全世界范圍的轟動。2016年底,AlphaGo又以Master的身份復出,與中日韓數十位高手進行快棋對決,連續(xù)60局AI大獲全勝。這回柯潔也無話可說了。
緊接著,卡內基梅隆大學研發(fā)的Libratus又在德州撲克戰(zhàn)勝了4位全球頂級職業(yè)玩家。與圍棋不同,德州撲克屬于不對稱信息游戲,玩家要猜測對方手牌,還要猜測對方的心思。輸的錢最少的金東(Dong Kim)賽后表示,比賽之前完全沒有想到AI這么強大,跟開掛了一樣似乎能夠看到自己的手牌。
雖然像Google,Facebook,Microsoft,Apple這些頂尖互聯網公司都在大力布局AI和深度學習,但是在現實生活中并沒有出現AI的大規(guī)模應用。我們每天接觸的AI,也不過是無聊的時候調戲一下Siri。
AI之所以未能在日常生主要活中普及,很大程度上是因為絕大多數互聯網公司都在脫離產業(yè)去研發(fā)底層算法。
換句話說,懂AI和深度學習技術的科學家,不了解產業(yè)內的實際問題,而產業(yè)內的企業(yè),對AI這類技術也是不敢觸及。因此我們將在日后持續(xù)與你探討AI對各個產業(yè)的改造,今天我們和星河互聯高級投資經理胡天碩一起為大家分享教育+AI的機會在哪里,希望對你有所幫助。
以下,供你參考。
第一 深度學習到底是什么?
AlphaGo,Libratus還有各種自動駕駛技術有什么共性呢?那就是運用最新的深度學習(Deep Learning)算法。深度學習涉及到的較深的數學知識,同時考慮到讀者未必有深厚的理工科背景,我盡可能以一種最通俗易懂的方式來介紹一下深度學習。
傳統(tǒng)的機器學習(Machine Learning)一般用于處理那些具有簡單規(guī)律的數字。例如,已知這幾年的全球變暖,預測未來的趨勢,或者是那些喜歡周杰倫歌的用戶還會喜歡誰的歌曲。而對于許多復雜的數據,就很難用簡單的數學公式來回答了。例如我們如果為貓的樣子找一個數學公式,那一定是非常復雜的,因為可能存在黑貓、白貓、花貓,坐著的、躺著的和正在捕老鼠的——然而深度學習就可以做到對圖像、聲音、文字等復雜對象的識別和分析。
深度學習這個技術,我們記住以下幾點就行了。
1. 深度學習能夠把兩種不同的復雜的數據關聯起來
只要有足夠多的圖片標注好其對應的文字,通過深度學習就可以預測類似圖片所對應的文字了。
把圖片替換成聲音,深度學習就由圖片識別變?yōu)槁曇糇R別。如果標注的是聲音對應的正文,就可以做語音識別,如果標注的是講話的人,就可以做聲紋識別。把對應的過程顛倒過來,就可以做語音合成。
不僅圖像可以和文字對應,圖像還可以和圖像自己對應,例如可以把素描的圖像與真實照片對應,或者是把真實照片與藝術照對應。
文字也可以與文字進行對應。中文對應成英文,就可以做翻譯。把長的新聞報道與其總結做對應就可以自動生成新聞標題。把說話與其潛在的回應對應,就可以做聊天機器人。排列組合的情況非常多,例如自動駕駛技術的基本原理就是圖片與方向盤/油門/剎車的對應。當然實踐中,并不是簡單這么一下就對應出來的,需要用到不同類型的深度學習網絡例如CNN/RNN/LSTM/GAN等等,在這里就不展開了,有興趣了解的可以去網上搜一下。
2. 相比于人的學習,深度學習需要非常多倍的數據量
目前深度學習的一大瓶頸就是想要準確率高,就得有大量的人工標注數據(supervised learning)。舉一個例子,一個從未見過袋鼠的人,只需要看一只袋鼠的一兩張照片就能識別出接下來看到的照片是不是袋鼠。而在imagenet里,每一個標注的類別(例如袋鼠、卡車)都需要出現上千遍,電腦才能學會。同樣,DeepMind訓練電腦玩游戲,都是幾千盤后電腦才能學會,而一般人十幾盤就已經上手了。就算是Alphago,Libratus能下得過頂尖人類高手,可是他們跟自己下的盤數遠遠超過頂尖高手這輩子下的棋盤個數。
從這個角度來講,深度學習是比人要更“笨”的,在同樣數據量的情況下,深度學習算法的總結歸納能力是更弱的——未來的算法(所謂One-shot Learning)應該會在這個方向上有所突破。
3. 不僅深度學習工具是開源免費的,絕大多數深度學習算法甚至模型都是開源的
深度學習領域這幾年的發(fā)展速度迅猛,絕大多數科研從業(yè)者已經摒棄了傳統(tǒng)發(fā)論文、審論文幾個月的周期,而是第一時間會把自己的論文公開上傳到國外的Arxiv網站。這大幅度加快了傳統(tǒng)科研的速度,往往剛一出來新的結果,不到幾周的時間,就有更新的結果超越了原有的算法。不僅如此,大量的代碼被開源放在Github上(之前的所有示例都可以在Github上找到開源項目),于是企業(yè)運用AI的時候,絕大多數不需要去做算法上的基礎研究,而只需要去調研并使用國際上最新的科研結構即可。企業(yè)完全可以把底層的深度學習工具當做一個黑盒直接去使用,真正做的工作不過是建立足夠多的人工標注數據以及對于深度學習原始結果的簡單加工和封裝。
4. 深度學習距離真正的通用AI還很遙遠
深度學習目前就像一個把3-4歲的小孩,能夠汽車的圖片,汽車這個單詞,還有汽車的聲音建立聯系。本質上它能夠把復雜數據對應起來,但是還有許多是做不到的,例如:
與人進行有意義的對話
寫出具有邏輯性的文章
在即將發(fā)生車禍時,做出道德判斷
編寫計算機程序
但這并不妨礙我們在這個階段里在產業(yè)中使用深度學習。
第二 AI怎么和教育進行結合?
在前一部分我們解釋了基于深度學習的AI有哪些潛力。這部分我們從圖像、聲音、文字、自適應學習幾個不同的角度來看深度學習與教育產業(yè)的結合點有哪些。
2.1 圖像篇
目前使用圖像識別最主流的應用就是拍照搜題,典型代表是作業(yè)幫、學霸君、小猿搜題、阿凡題……
傳統(tǒng)的K12應用更多是停留在學生需要主動上來去看視頻和做題,這本身對于學生來講是很難有學習場景的。而拍照搜題則是學生帶著問題和困惑來學習的,所以我們也看到拍照搜題App是所有K12應用里活躍度最高的。拍照搜題的核心技術就是把圖片與文字做對應在,然后再去做文字與已有題庫的匹配,上文中我們也提到由于開源技術的普及,圖像識別已經不再有之前的門檻了,現在最大的門檻反倒是品牌和題庫的大小。
當然拍照搜題本身是非常具有爭議性的。如果學生是在遇到困難并且思考后,通過手機獲得答案,這是一個很好的自主學習過程。但如果是無腦地把所有答案抄到練習冊上,就沒有任何學習意義了。不輪爭議的結果如何,有一件事情是值得肯定得,那就是拍照搜題打破了只有老師才有標準答案的壟斷,老師在布置作業(yè)時,面臨的思考是,當所有學生都有正確答案時,怎么讓學生認真去練習。
除了拍題識別以外,手寫識別準確率也逐漸在提高,有一些專門的企業(yè)還會做針對公式、科學符號的識別,這里也就不展開了。
未來可以預見到的圖像識別與教育結合的三點:
2.1.1 打通紙質書籍與在線教育
幾千年來,傳統(tǒng)紙質書籍承載了幾乎全部的人類知識。然而這些紙上的圖文知識與互動性強/展現形式豐富的在線教育形成了明顯的反差。雖然現在的AR書籍都是以AR作為噱頭。但圖像識別和增強現實有潛力讓過去的紙質書籍再次迎來新生,讓他們在徹底消失之前,成為作者與讀者、讀者與讀者之間一個全新的學習交流渠道。有了足夠強大的圖像識別技術,書無需嵌入二維碼,書的內容本身就是“二維碼”?!冻笮▲啞纷兂闪?D的游戲,《新概念》可以直接評判自己朗讀的水平,《紅樓夢》的經典段落有著上萬名讀者的批閱,《三體》則直接可以和大劉線上交流。
2.1.2 打通真實可見的世界與在線教育
微軟之前推出一個App《微軟識花》,雖然交互體驗和識別率都不夠理想,但是它代表了一種新的學習方式,所見即所學,或者即時學習(Just-in-time learning)。未來一定會有底層的技術提供商以較高的準確率和較低的延遲識別畫面里的物體——學習語言和科學,不再是圍繞著“單詞”或“概念”,而是更加圍繞用戶所在的真實“場景”。
2.1.3 動作捕捉與在線教育
大量的體育、樂器、武術、舞蹈、繪畫難以做在線教育的根本原因是因為缺乏教學者對學習者的姿態(tài)給出及時有效的反饋。隨著視覺動作捕捉技術的成熟,成本逐漸下降(當然也不排除基于可穿戴設備的方案),每一個學習者都能享受頂尖AI教練一對一的個性化指導。
對于教育機構來講,動作捕捉,尤其是人臉捕捉是保護自己IP的全新方式。機構對名師那是又愛又恨——名師可以帶來大量優(yōu)質生源,也可以隨時把優(yōu)質生源帶走??墒侨绻宫F在學生面前的不是一個真實面孔,而是一個例如“初音未來”的虛擬IP形象,那么最終學生認同的是這個形象而非具體的老師。
2.2 聲音篇
講完圖片接下來我們講講聲音與ai的結合點。目前使用聲音最主流的應用就是語音評測,也就是學生說一句話,機器給打分,典型代表是訊飛、流利說、一起作業(yè)、盒子魚……
主要的契機是不論是學生還是家長,還是學校和教委都逐漸對于英語口語這件事情重視起來了。雖然高考表面上是“弱化英語”了,但實際上如果要上名校,英語,尤其英語口語所占的比重是要比過去更大。而目前絕大多數市面上的口語學習App的口語評測的水平就是評判規(guī)定的一句話的發(fā)音準確度,或者是半開放式的交流。而真正的難點是評估開放性的對話的好壞——其實這部分更多還是下一部分要講的文字識別。訊飛已經在這個方向上與國家多個省簽約合作,嘗試做高考開放式口語題目的自動批改,這也與接下來要介紹的NLP有直接關聯。
聲音最大的未來應用一個是做出人耳分辨不出來的語音合成。目前Google的Wavenet已經接近這個水平只不過運算起來非常慢,百度近期也對這個結果的性能進行了優(yōu)化。另一個則是把語音識別率再提升一個新的檔次。這兩項工作都是在可預見的兩三年內會實現并且普及起來的。到時候,配合上虛擬的IP形象,許多一線教師就會逐漸意識到自己可能會從“臺前”轉向“幕后”,甚至面臨著失業(yè)的風險。
另外,聲音識別在音樂教學這個細分領域也會有一些應用,這塊就不展開了。
2.3 文字篇(NLP)
文字處理,也就是所謂自然語言處理(簡稱NLP),在傳統(tǒng)教育的最大應用就是作文的自動批改,由于市場較小,所以在這里也就不展開了。
我們來思考一件事情,人類99%的知識都是以文字的形勢記錄下來的。
老師講課,最重要不是他的面孔和他的音色,而是他所說的話。同理,真正的在線教育與AI的最重要的結合點既不是聲音,也不是圖像,而是文字。在我們之前的論述里,只要文字確定好了,我們就可以合成出最磁性的聲音配合最帥氣的虛擬臉蛋,所有在線教育并不需要“固定的視頻”。如果講課內容,也就是文字是變化的,那就相當于每一個學生會有一個針對性的一對一老師。
AI對于在線教育要解決的大問題是,如何把課本上死的知識,變成老師給學生的對話。這里的技術挑戰(zhàn)就非常多了,包括:
1.自動解題能力——能夠根據題目自動得出詳細解析。
2.作業(yè)智能批改能力——這里說的不只是批改選擇判斷題,而是能夠對學生的做題過程進行批改。
3.智能答疑能力——能夠回答學科相關問題。
4.自適應對話能力——感知到學生的學習狀態(tài)并且不斷地給出相應的互動。(請參照下文)
目前這四個問題的所有解決方案都是基于人工編寫的規(guī)則,而不是利用AI。但是這方面科技發(fā)展也非???,國外已經有Geosolver在試圖解決第一道題,國內也有團隊在試圖做“高考機器人”。
2.4 自適應篇
目前市面上的自適應產品,都是基于人工梳理的教學模型+簡單的數學建?!a品形態(tài)也比較簡單,根據學生做題的對錯,評估其知識點的掌握程度。其中的典型就是Knewton、可汗學院和猿題庫,他們所采用的IRT算法早已開源。實踐中,真正耗時耗力的是教研,而且這還是在做得非常粗糙的情況下。畢竟絕大多數自適應學習產品只關心一道題的對錯,而無法判別具體“為什么”錯了——同一道填空題,不同的學生答案老師一眼就能看出是哪一個知識點掌握不到家,而系統(tǒng)一遍就只能歸結于固定的一個知識點。至于證明題,解答題更是現有自適應產品無法解決的。
所以真正的自適應的依賴條件依然是之前所提到的NLP/文字處理能力。只有當算法能夠看到題目知道正確答案,看到題目知道出題人的意思,看到錯誤的答案就知道哪個知識點掌握不到家時,在線教育就會出現全新的洗牌,自適應也會成為所有學習的主流方式。
總結:隨著人工智能的發(fā)展和普及,傳統(tǒng)的學習方式會被徹底顛覆,每一個學生會有一個一對一的專業(yè)AI老師,能夠讓其學會各種知識,不再受家庭出身、學校和課本的限制。將語音合成,虛擬IP再加上nlp和自適應學習結合形成的互動式學習產品存在著巨大的商業(yè)前景。當然這個愿景確實距離我們有一些遙遠,在這個愿景實現之前,我們依然不得不勒緊褲腰帶購買高昂的學區(qū)房。然而現在的深度學習已經在為教育產業(yè)提供工具,有一些企業(yè)會捷足先登,有一些企業(yè)則會踟躕不前。最終的贏家既不是那些做教學最好的企業(yè),也不是那些AI研發(fā)能力最好的企業(yè),而是那些能夠把技術和教學和產品和推廣融合好的企業(yè)。這也是我們最期待投資的企業(yè)。今天就講到這里,我們下周再見。
星河融快(ID:rongkuai888)將通過專業(yè)的分析,持續(xù)與你分享“有趣的”產業(yè)互聯網干貨。歡迎你在下方留言和我們分享有趣的觀點,自薦或推薦優(yōu)質產業(yè)互聯網項目,同時也歡迎你來上地18號和我們聊聊。
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現有價值的內容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。