芥末堆芥末堆

鑒別真假人工智能,你需要了解的五個技術

作者:知茗不具 發(fā)布時間:

鑒別真假人工智能,你需要了解的五個技術

作者:知茗不具 發(fā)布時間:

摘要:多輪Free Style對話能做到嗎?

dancing-dave-minion-510835_960_720.jpg

(來源:pixabay)

Google買了Api.ai,Facebook買了wit.ai, 思科買了Mindmeld,微軟買了Maluuba,最近百度買了Kitt.ai,騰訊還有誰可買?

* 下方視頻不可見,請點擊瀏覽器地址欄中盾牌攔截按鈕,允許通過即可查看視頻(愛奇藝)。


先來看看這段視頻,這個機器人和主持人的對話是不是讓你很興奮?你興奮地太早了。這明顯是事先寫進了機器人程序,并經過節(jié)目組彩排實現(xiàn)的。因為多輪Free Style對話,以目前的技術發(fā)展,完全做不到!

WechatIMG41.jpeg

要鑒別真假對話人工智能,你必須首先知道這幾個技術領域:

1、語音轉文本:STT

和機器人對話,它接收到你的語音第一步要做的便是STT。在這個領域里,頂級玩家就是Google, 科大訊飛,百度,微軟這些大公司了。

2、文本處理

語音轉成文本之后,機器如何真正理解,就需要進行文本處理了。這就是我們之前聽了不明覺厲的NLP、NLU——自然語言處理/理解的范疇。它的核心功能是把文本里的信息提取,搞清楚詞性,比如動詞、名詞、狀語……然后將這些詞性轉換成數(shù)學處理所需的向量

目前,利用麻省理工大學、斯坦福大學的開源工具,文本處理的準確率可以達到90%左右。但是如果想提高準確率,就需要不斷擴展的大數(shù)據(jù),并不斷補充時下熱詞,比如“怪蜀黍”、“安利”、“free style”……這種NLP的先進技術在中英文處理方面,成效尤為明顯。大多數(shù)的人工智能公司都通過自己的標記數(shù)據(jù)構建了這項技術。工程師們常用的的開源平臺有NLPIR,Spacy,NLTK,Stanford Core NLP,Textblob,Gensim。悄悄告訴大家,其實很多國內所謂搞NLP的公司,沒準就用了上面某平臺的技術呢,只是換了個殼而已~~

但是做完文本分析,了解了用戶句子中的主謂賓結構后,發(fā)現(xiàn)這些信息在很大程度上并不相關聯(lián),機器人不知道它具體要表達什么意思,這不是很糟心嗎?畢竟機器人最終目的是要捕捉說話者的意圖并給予反饋的。要用這些數(shù)據(jù)創(chuàng)建對話更是難上加難。因此接下來就是整個對話系統(tǒng)里技術含量最高的部分。    

3、利用機器學習/深度學習分辨文本意圖

這個階段是對文本表達的“意圖”進行分類,核心是利用文本提取的信息去確認“中心思想”。比如,在“我想坐下午3點的飛機去東京”這句話里,文本的“形式”包括時間:下午3點,目的地東京,起點為現(xiàn)在的定位城市,其“意圖”則是預定航班。

做這項工作的工具非常多,它們通常利用Python的科學計算工具包,例如scikit-learn,或在tensorflow上構建深度學習模型。當標記數(shù)據(jù)輸入系統(tǒng)后,它們則被用來訓練機器,以更好地提取文本“意圖”或“形式”。你可能問題來了,判斷這個“意圖”和“形式”有那么復雜么?還需要機器學習和深度學習?是的,因為人類語言很復雜,相同意圖有各種表達方式。讓系統(tǒng)辨析語法,盡可能多地分辨出相同意圖不同的表達方式,這種工作要花掉開發(fā)者大量的時間。人工智能在此的本領在于,同樣是問時間,無論是6種問法還是10種問法,機器可以通過過往的數(shù)據(jù)學習,分辨出你的目的都是“查詢時間”。

4、對話管理

一旦了解到句子的“意圖”,機器人下一步就是選擇對話路徑:是要調用應用程序接口API去獲取維基百科信息,還是從數(shù)據(jù)庫里調取問題的答案,或者利用之前深度學習的數(shù)據(jù)生成新的答案,或者是基于對話樹中所處的枝干,做出基本的對話反饋。

5、最后一步,就是將可以正確反饋給用戶的文本轉換成語音,說出來,即TTS。

從接收信息、處理信息到反饋信息這五步下來,才完成了機器對話的單輪效果。但在這五步里,最關鍵、通常也是最難的部分就是第三和第四步。因為這需要大量的數(shù)據(jù)及手工作業(yè)。比如第三步需要大量經過分辨的“意圖”和“形式”以及標記數(shù)據(jù)。第四步要求手動編程構建對話框架。幾乎每一個科技巨頭都希望扎進這兩個領域里做突破。這也是為什么Google買了Api.ai,F(xiàn)acebook購買了wit.ai, 思科買了Mindmeld,微軟買了Maluuba,以及最近百度買了Kitt.ai。 

雖然這些平臺的服務形式有所不同,但基本上都向開發(fā)者提供了語音識別和機器學習服務。該服務能將語音命令轉換為文字,并把這些文字轉化為可操作的數(shù)據(jù)。同時,它們可以支持簡單的對話管理,為程序員畫對話樹草圖提供了非常簡單有效的工具。大公司為了在第三和第四步階段爭奪數(shù)據(jù),自然會購買這些為開發(fā)者提供簡便工具的公司,以此獲取大量數(shù)據(jù)。數(shù)據(jù)是一方面,大公司還希望在“聽清”、“聽懂”基礎上,通過收購這些開源平臺增強對生活中復雜指令的識別能力。畢竟各行各業(yè)都有需要構建人機交互的開發(fā)者,他們會在這些平臺上聚集大量的細分場景數(shù)據(jù)。

對于思科這樣的公司,如果加大軟件投入,那么AI一定是構建未來產品競爭力的基礎。收購MindMeld之后,思科將在MindMeld團隊基礎上成立集團層面的認知協(xié)作團隊。

那么Facebook收購wit.ai的理由也和業(yè)務極大相關。Wit.ai將幫助Facebook提供語音控制工具,為Messenger提供語音到文本的輸入支持。Facebook不是說了么,自己的使命是:通過超群非凡的體驗讓平臺上13億用戶更好的連接在一起。那么通過技術手段理解自然語言一定是這幅藍圖里中濃墨重彩的一筆。

有人說,wit.ai這樣的公司在NLU民主化方面做出了重大貢獻。這是不假,不把這塊難啃的骨頭干掉,機器對話的構建是無法完成的。

看了這么多,你應該明白想讓機器張嘴說一句正確的話,有多難。這還只是一句,F(xiàn)ree Style 的多輪暢談目前就更別想了。不過,在細分場景下,足夠干凈的數(shù)據(jù),足夠結構化的語境,是可以訓練出相當聰明的機器人的。比如教育場景下,對話口語教學機器人,就是一個不錯的嘗試方向。期待教育行業(yè)里有識之士能夠在此方面有所突破。

本文來自投稿,作者知茗不具,從事教育培訓行業(yè)報道和創(chuàng)投服務6年,長期深入關注行業(yè)內部動態(tài)和周邊產業(yè)發(fā)展,目前聚焦人工智能在語言學習領域的應用,曾擔任創(chuàng)業(yè)黑馬公司高管、牛投網(wǎng)總裁等職務。感謝開豆英語首席科學家、約翰霍普金斯大學Dhonam Pemba博士對本文的指導。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉載可點擊 芥末堆內容合作 了解詳情,未經授權拒絕一切形式轉載,違者必究;
2、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務合作:王老師 18710003484
  • 鑒別真假人工智能,你需要了解的五個技術分享二維碼