芥末堆芥末堆

當(dāng)世界恐慌AI搶飯碗的時(shí)候,AI卻提供了一個(gè)新的工作

作者:羅瑞垚 發(fā)布時(shí)間:

當(dāng)世界恐慌AI搶飯碗的時(shí)候,AI卻提供了一個(gè)新的工作

作者:羅瑞垚 發(fā)布時(shí)間:

摘要:“人工智能”中的人工。

微信圖片_20180525102739.jpg

什么樣的工作,可以被塞爾維亞首都貝爾格萊德的上班族,和印度南部Yemmiganur小鎮(zhèn)的家庭主婦所共享?

答案可能出乎你意料:訓(xùn)練AI。

上班族排隊(duì)等一杯咖啡的功夫,打開手機(jī)做幾個(gè)選擇題,就可以賺到咖啡錢;主婦在午后的閑暇時(shí)光,在手機(jī)軟件上標(biāo)注方框,就可能為小孩添一身新衣。

打開Playment界面,他們會(huì)看到一張Polo衫的照片,下面描述了它的顏色、袖長和領(lǐng)口三個(gè)特征,先選擇描述是否正確,如果正確則無需操作,如果錯(cuò)誤則進(jìn)入下一步,根據(jù)提供的選項(xiàng)選擇正確的描述。

2.jpg

他們也可能看到的是一張公路標(biāo)識(shí)的照片,里面有紅綠燈和轉(zhuǎn)向標(biāo)志,需要先圈出標(biāo)志,再選擇對(duì)應(yīng)的意思。

3.jpg

這就完成了一次簡單的數(shù)據(jù)標(biāo)注:給圖像貼標(biāo)簽和分類。當(dāng)然,這離真正意義上的訓(xùn)練AI還很遙遠(yuǎn),其實(shí)只是第一步——為AI提供訓(xùn)練所需的數(shù)據(jù)。

圖像識(shí)別是AI在商業(yè)中應(yīng)用的常見場景。遠(yuǎn)到自動(dòng)駕駛的實(shí)現(xiàn),近到電商網(wǎng)站的以圖搜物,都需要經(jīng)過成千上萬次的數(shù)據(jù)分揀和識(shí)別訓(xùn)練。

班加羅爾過去因外包產(chǎn)業(yè)而聞名于世,語言溝通無障礙、人力成本低廉、IT人才充足,讓印度成為了歐美大公司服務(wù)外包的首選之地。

大數(shù)據(jù)、自動(dòng)化、AI等新科技的發(fā)展正在削弱人力成本的優(yōu)勢(shì)。2017年,印度的外包產(chǎn)業(yè)受到的沖擊明顯,產(chǎn)值下降,利潤下滑,大幅裁員。

若最終某些勞動(dòng)被機(jī)器取代,那部分外包服務(wù)將不復(fù)存在。但在那之前,AI技術(shù)的發(fā)展也給班加羅爾創(chuàng)造了新生計(jì),即通過“人工”讓AI變得更“智能”。

這其中的參與者,既有擁有大量全職員工的傳統(tǒng)外包公司;也有像Playment這樣創(chuàng)業(yè)公司,用科技來做眾包的平臺(tái);還有IndiVillage這樣的社會(huì)企業(yè),通過科技來賦能鄉(xiāng)村婦女和青年,改善社區(qū)基礎(chǔ)設(shè)施和教育。

據(jù)彭博社估計(jì),這種數(shù)據(jù)標(biāo)注和分類的工作,目前全球有超過100萬人在做。

千萬融資

亞馬遜的Amazon Mechanical Turk源于2005年為內(nèi)部需求所搭建的平臺(tái):管理庫存、分類產(chǎn)品等。后來,平臺(tái)開始對(duì)外開放,目前有超過50萬的注冊(cè)用戶,75%來自美國。它上面提供簡單的數(shù)據(jù)標(biāo)記任務(wù),用戶可以由此掙得酬勞,處理后的數(shù)據(jù)將用于AI的訓(xùn)練。

隨著AI技術(shù)的發(fā)展,需要提供海量的數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,類似的第三方勞務(wù)眾包平臺(tái)開始興起。

2017年1月,總部位于美國西雅圖的Spare5獲得了英特爾投資、谷歌風(fēng)投等聯(lián)合投資的1400萬美元的B輪融資,宣布改名為Mighty AI。這拉開了2017年AI訓(xùn)練和數(shù)據(jù)分揀眾包平臺(tái)資本熱的帷幕。

4.jpg

2017年5月,總部位于班加羅爾的Playment獲得了硅谷孵化器Y Combinator等參與的160萬美元的投資,融資總額達(dá)到了240萬美元。

據(jù)統(tǒng)計(jì),2017年里,美國的CloudFactory,Mighty AI和CrowdFlower等眾包公司共獲得了5000萬美元以上的投資。與傳統(tǒng)的外包公司相比,它們?yōu)锳I訓(xùn)練所需要的海量數(shù)據(jù)提供了一個(gè)更為經(jīng)濟(jì)可行的解決方案。

5.jpg

Playment的三位聯(lián)合創(chuàng)始人此前都在Flipkart工作,2015年開始創(chuàng)業(yè)。他們目前有30名雇員,卻擁有一個(gè)由25萬名全部位于印度的遠(yuǎn)程“數(shù)據(jù)分揀員”組成的眾包員工社區(qū)。

即使是總部位于美國的眾包公司,他們的眾包員工很多也都來自于印度、柬埔寨、非洲等發(fā)展中國家。比如Microwork在塞爾維亞,Samasource在印度、非洲和海地等地培訓(xùn)和雇傭工作人員。

人力成本低廉的優(yōu)勢(shì)顯而易見。在智能手機(jī)正在快速普及的印度,經(jīng)過培訓(xùn),人人都可以在移動(dòng)設(shè)備上動(dòng)動(dòng)手指就能賺到錢,而無需像Amazon Mechanical Turk那樣總是坐在電腦前工作。

傳統(tǒng)的外包公司雇傭全職員工,這樣一來成本就相對(duì)高昂,Playment這種眾包協(xié)助服務(wù)就受到了青睞。其中的核心在于將數(shù)據(jù)處理的需求設(shè)計(jì)成智能手機(jī)的軟件,并按照處理要求匹配到合適的員工。

“這樣做更具成本效益,”Playment的聯(lián)合創(chuàng)始人Ajinkya Malasane說,“傳統(tǒng)的業(yè)務(wù)流程外包由于團(tuán)隊(duì)固定,無法擴(kuò)大規(guī)模,科技公司內(nèi)部的眾包平臺(tái)(比如亞馬遜的Mechanical Turk)不能保證質(zhì)量?!?/p>

Playment現(xiàn)在擁有30多位客戶,其中包括Flipkart、Paytm和阿里巴巴集團(tuán)??蛻粢话惆错?xiàng)目付費(fèi)或簽訂年度合同。

據(jù)聯(lián)合創(chuàng)始人兼首席執(zhí)行官Siddharth Mall說,他們的客戶中有大約70%都屬于自動(dòng)駕駛領(lǐng)域。

一般而言,企業(yè)將所收集的數(shù)據(jù)提交給Playment,然后Playment的眾包員工用他們的智能手機(jī)對(duì)其進(jìn)行標(biāo)記、標(biāo)注和注釋。這些成員通過教程接受培訓(xùn),并且必須通過特定項(xiàng)目的資質(zhì)考察才能參與。為了確保質(zhì)量,每項(xiàng)任務(wù)會(huì)經(jīng)過多人多次重復(fù),并設(shè)置有重復(fù)核查的功能。

“這些任務(wù)很復(fù)雜,所以我們提供專門的項(xiàng)目經(jīng)理來為他們定制工作流程,并負(fù)責(zé)整個(gè)交付過程?!盨iddharth說。

據(jù)他介紹,Playment已經(jīng)為客戶標(biāo)記了超過5000萬個(gè)數(shù)據(jù),相當(dāng)于大約1000萬個(gè)數(shù)據(jù)單位(圖像和文本)。他說,目前公司每天可以輸出高達(dá)100萬個(gè)標(biāo)簽。

除了創(chuàng)造工作機(jī)會(huì),社區(qū)也可能因此受益。電商snapdeal的合作伙伴IndiVillage Tech Solutions就在印度南部安得拉邦的小鎮(zhèn)Yemmiganur設(shè)立了辦公室,雇傭了大約100名婦女和青年,并將部分利潤用于社區(qū)教育和飲用水的改善。

“人工智能”中的“人工”

一直宣稱將取代人類的“人工智能”,何以“淪落”到需要被人類教育?聽來不可思議,但確實(shí)是真的。

Siddharth說,“雖然人工智能是技術(shù)的下一個(gè)前沿領(lǐng)域,但它還遠(yuǎn)未達(dá)到企業(yè)應(yīng)用的要求?!?/p>

以自動(dòng)駕駛為例,系統(tǒng)需要做出很多決定來應(yīng)對(duì)各種不確定因素——天氣,照明,車輛類型,單行道等等。“你需要大量人力,以指數(shù)規(guī)模生成大量的訓(xùn)練數(shù)據(jù)?!?Siddharth說。

之所以需要訓(xùn)練數(shù)據(jù),是取決于目前AI訓(xùn)練的方式。

以圖像識(shí)別為例,原理就是給AI輸入足夠多的同一類型的數(shù)據(jù),比如無數(shù)張貼了分類標(biāo)簽的各種各樣紅綠燈、或者公路上障礙物的圖片,等下次再輸入未貼標(biāo)簽的同類圖像時(shí),AI可以將其正確分類,也就是“認(rèn)出來”。

6.jpg

這樣一來,對(duì)于一輛自動(dòng)駕駛汽車來說,僅僅是識(shí)別行人和停止標(biāo)志,它通常會(huì)需要成千上百萬的照片來學(xué)習(xí),而這些照片必須全部由人力進(jìn)行標(biāo)記。

要讓AI越來越智能,直到無限接近人的判斷,就需要海量的數(shù)據(jù)讓它進(jìn)行學(xué)習(xí)。那問題在于,數(shù)據(jù)的數(shù)量和質(zhì)量如何選擇。對(duì)于商業(yè)應(yīng)用而言,所解決的往往是具體情境下的問題,比如自動(dòng)駕駛識(shí)別障礙物,以圖搜物找到同類型的商品等。

因此,一定數(shù)量的高質(zhì)量的數(shù)據(jù),顯然比海量的低質(zhì)量數(shù)據(jù)更經(jīng)濟(jì)高效。所謂“高質(zhì)量”,即就分類意義而言,它的分類更為準(zhǔn)確,可以起到更好的學(xué)習(xí)效果。

比如電商的以圖搜物需要訓(xùn)練AI識(shí)別衣服類型,理想的狀態(tài)是所有的短袖被分為一類,所有的連衣裙被分為一類,二者之間沒有交叉和混雜。這就需要人工來對(duì)圖像進(jìn)行標(biāo)注,對(duì)原始的數(shù)據(jù)進(jìn)行“凈化”和“分揀”。

因此,印度等發(fā)展中國家的年輕勞動(dòng)力,顯然成了一個(gè)不錯(cuò)的選擇。

是“智能”還是“鸚鵡”?

這樣訓(xùn)練出來的AI,能真的取代人類嗎?距離這一目標(biāo)的實(shí)現(xiàn)可能還很遙遠(yuǎn)。

很簡單,以這種方法訓(xùn)練出來的AI,它所有的輸出都建立在已經(jīng)輸入的基礎(chǔ)之上,如果有全新的圖像出現(xiàn),識(shí)別就無法進(jìn)行。

加州大學(xué)洛杉磯分校視覺、認(rèn)知、學(xué)習(xí)與自主機(jī)器人中心主任朱松純?cè)詧D像識(shí)別所在計(jì)算機(jī)視覺研究舉例稱,此前25年,主流是以形狀和物體為中心,最近25年是通過提取豐富的圖像特征,來描述物體的外觀來做識(shí)別和分類。之前提到的電商網(wǎng)站Polo衫的顏色、袖長和領(lǐng)型就屬于此類。

但事實(shí)上,場景識(shí)別的本質(zhì)是功能推理。朱松純以下面兩張圖為例,寫道“雖然圖像特征完全不同,但是他們是同一類場景,功能上是等價(jià)的?!?/p>

7.jpg

這才是真正的“人工智能”。而目前這種通過圖像特征做場景的分類和分割,用大量的圖片例子和手工標(biāo)注的結(jié)果去訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,其實(shí)是典型的“鸚鵡”模式。

也就是說,這種“學(xué)習(xí)”實(shí)際上不是我們平常意義上的“學(xué)習(xí)”。一般意義上的學(xué)習(xí),是一種交互的過程,而這種通過大量數(shù)據(jù)進(jìn)行訓(xùn)練的學(xué)習(xí),其實(shí)是一種“被動(dòng)的統(tǒng)計(jì)學(xué)習(xí)”,無法產(chǎn)生舉一反三的效果,只是一種“鸚鵡學(xué)舌”。

說到底,目前這種在商業(yè)應(yīng)用的垂直領(lǐng)域應(yīng)用廣泛的,通過大量數(shù)據(jù)來訓(xùn)練AI的深度學(xué)習(xí)方法,只是AI領(lǐng)域很小的一個(gè)部分,絕對(duì)不能等同于“人工智能”。

隨著AI技術(shù)的發(fā)展,也可能會(huì)出現(xiàn)比被動(dòng)的統(tǒng)計(jì)學(xué)習(xí)更為科學(xué)的方法,那時(shí)候,還需要通過人工貼標(biāo)簽來分類數(shù)據(jù)、訓(xùn)練AI嗎?

本文轉(zhuǎn)自微信公眾號(hào)“志象網(wǎng)”,作者羅瑞垚,原標(biāo)題《全世界AI民工聯(lián)合起來》。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:志象網(wǎng)
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。
來源:志象網(wǎng)
芥末堆商務(wù)合作:王老師 18710003484
  • 當(dāng)世界恐慌AI搶飯碗的時(shí)候,AI卻提供了一個(gè)新的工作分享二維碼