芥末堆芥末堆

AI大模型可以寫詩,但不擅長數(shù)學(xué)

作者:阿宅 發(fā)布時間:

AI大模型可以寫詩,但不擅長數(shù)學(xué)

作者:阿宅 發(fā)布時間:

摘要:這教會學(xué)生帶著批判性的眼光看待事物

GPT.png

原標(biāo)題:A.I. Can Write Poetry, but It Struggles With Math
作者:Steve Lohr  來源:紐約時報  編譯:阿宅  圖源:Unsplash

人工智能聊天機器人就像學(xué)生一樣,努力勤奮,孜孜以求,口齒伶俐。但奇怪的是,它們卻經(jīng)常在數(shù)學(xué)上遇到困難。

類似于ChatGPT這樣的聊天機器人可以寫詩、總結(jié)書籍摘要、回答問題,它們通常具有像人類一樣的流暢性。雖然這些系統(tǒng)可以根據(jù)所學(xué)知識進(jìn)行數(shù)學(xué)運算,但結(jié)果可能會有所不同,甚至可能是錯的。這些聊天機器人經(jīng)過微調(diào),可以用于確定概率,而非進(jìn)行基于規(guī)則的運算??赡苄圆坏扔跍?zhǔn)確性,而且語言比數(shù)學(xué)更靈活,標(biāo)準(zhǔn)更寬松。

美國西北大學(xué)計算機科學(xué)教授兼人工智能研究員克里斯蒂安·哈蒙德(Kristian Hammond)說:“人工智能聊天機器人在數(shù)學(xué)方面吃力,是因為它們從來不是為數(shù)學(xué)而設(shè)計的。

看起來,世界上最聰明的計算機科學(xué)家創(chuàng)造的人工智能更像是文科專業(yè)的學(xué)生,而不是數(shù)字奇才。

乍一看,這與計算機的歷史發(fā)展截然不同。自20世紀(jì)40年代早期計算機誕生以來,計算機一直在不知疲倦、快速、準(zhǔn)確地計算。長期以來,計算機真正擅長的是處理棘手的數(shù)字,其表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于人類。計算機遵循規(guī)則,并在結(jié)構(gòu)化的數(shù)據(jù)庫中檢索信息。它們既強大又脆弱,因此,過去在人工智能方面的努力遇到了障礙。

然而,十多年前,這一障礙得以突破。作為底層技術(shù)的神經(jīng)網(wǎng)絡(luò),可以松散地模擬了人腦中真實神經(jīng)網(wǎng)絡(luò)的復(fù)雜鏈接。這類人工智能不是按照嚴(yán)格的規(guī)則編程的,而是通過分析大量數(shù)據(jù)來學(xué)習(xí)。這類人工智能像人類一樣,根據(jù)所吸收的所有信息生成語言,預(yù)測接下來最有可能出現(xiàn)的單詞或短語。

“這項技術(shù)實現(xiàn)了很多了不起的事情,但并不意味著它是無所不能的?!惫傻虏┦空f。

有時,人工智能聊天機器人會遇到簡單的算術(shù)和數(shù)學(xué)單詞問題,需要多個步驟才能找到解決方案,一些技術(shù)評論家最近注意到了這一點。雖然人工智能的熟練程度正在提高,但仍然有缺陷。

在最近召開的一次研討會上,可汗學(xué)院的首席學(xué)習(xí)官克里斯汀·迪瑟博(Kristen DiCerbo)介紹了數(shù)學(xué)準(zhǔn)確性這一主題?!罢缒銈冊S多人所了解的,這確實是一個問題?!钡仙┱f。

幾個月前,可汗學(xué)院對其人工智能助手Khanmigo進(jìn)行了大的調(diào)整,將許多數(shù)值問題發(fā)送到計算器程序,而不是要求人工智能解決數(shù)學(xué)問題。學(xué)生在等待計算器程序完成時,會在屏幕上看到“做數(shù)學(xué)”的字樣,也會看到Khanmigo的圖標(biāo)在搖頭。迪瑟博說:“我們實際上是在使用專門的數(shù)學(xué)工具?!?/p>

這一年多來,ChatGPT在解決一些數(shù)學(xué)問題時用了類似的解決方法。對于大數(shù)除法和乘法等任務(wù),ChatGPT會向計算器程序?qū)で髱椭?/p>

OpenAI在一份聲明中表示,數(shù)學(xué)是一個“需要持續(xù)研究的重要領(lǐng)域”。OpenAI表示,在包含數(shù)千個需要視覺感知和數(shù)學(xué)推理的問題的公共數(shù)據(jù)庫上,其新版GPT達(dá)到了近64%的準(zhǔn)確率,高于比上一版本的58%。

當(dāng)人工智能聊天機器人消化了大量相關(guān)的訓(xùn)練數(shù)據(jù),包括教科書、練習(xí)和標(biāo)準(zhǔn)化測試時,它們的往往表現(xiàn)出色。其結(jié)果是,聊天機器人之前已經(jīng)看到并分析了非常相似的問題。OpenAI表示,ChatGPT技術(shù)的最新版本在高中生的SAT數(shù)學(xué)考試中得分為第89百分位。

人工智能聊天機器人在數(shù)學(xué)方面的不穩(wěn)定表現(xiàn)為人工智能界關(guān)于該領(lǐng)域最佳前進(jìn)方向的激烈辯論增添了亮點。大體上形成了兩個陣營。

一方面,有人認(rèn)為,為人工智能聊天機器人提供動力的高級神經(jīng)網(wǎng)絡(luò),即大語言模型,是通向穩(wěn)步發(fā)展并最終實現(xiàn)通用人工智能(AGI)的唯一途徑。這是硅谷地區(qū)的主流觀點。

但也人質(zhì)疑,向大模型添加更多數(shù)據(jù)和計算能力是否足夠。其中的代表人物是Meta首席人工智能科學(xué)家Yann LeCun。

LeCun博士說,大模型缺乏對邏輯的掌握,也缺乏常識推理。他堅稱,我們需要的是一種更廣泛的方法,他稱之為“世界模型”(world modeling),即能夠像人類一樣學(xué)習(xí)世界如何運作的系統(tǒng)。這可能需要十年左右的時間才能實現(xiàn)。

與此同時,Meta正在基于其大模型LLaMA,將人工智能驅(qū)動的智能助理軟件整合到其社交媒體服務(wù)中,包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷,但仍然做了很多工作。

大衛(wèi)·費魯奇(David Ferrucci)領(lǐng)導(dǎo)的團隊打造了IBM著名的超級電腦“沃森”,這款電腦在2011年擊敗了《危險邊緣》(Jeopardy)節(jié)目歷史上最成功的兩位選手。與大多數(shù)計算機科學(xué)家一樣,費魯奇認(rèn)為最新的人工智能技術(shù)無疑令人印象深刻,但主要在于語言技能方面,而非在于準(zhǔn)確性。他成立的初創(chuàng)公司Elemental Cognition開發(fā)軟件,以改善金融、旅游和藥物研發(fā)等領(lǐng)域的商業(yè)決策。Elemental Cognition將大語言模型作為一個組成部分,但也使用更多基于規(guī)則的軟件。

費魯奇博士說,這種結(jié)構(gòu)化軟件是目前運行世界上大部分基礎(chǔ)系統(tǒng)(如銀行、供應(yīng)鏈和空中交通管制)的計算基礎(chǔ)設(shè)施。他說:“許多重要的事情需要非常高的精確度?!?/p>

紐約高中數(shù)學(xué)老師柯克·施耐德(Kirk Schneider)表示,他認(rèn)為人工智能聊天機器人對教育產(chǎn)生影響是不可避免的。他說,雖然學(xué)校管理人員可以禁用,但學(xué)生們?nèi)詴褂谩?/p>

但施耐德先生有些不安。他說:“通常來說,這些人工智能聊天機器人表現(xiàn)較好,但數(shù)學(xué)方面還是不夠好,數(shù)學(xué)必須準(zhǔn)確。”

然而,這些偶爾的失誤實際上是一個教學(xué)機會。施耐德經(jīng)常將他的班級分成小組,聊天機器人的答案是學(xué)生討論的焦點。將你的答案與機器人的進(jìn)行對比,誰的對?你們是如何得出答案的?

“這教會學(xué)生帶著批判性的眼光看待事物,并提高批判性思維?!彼f,“這類似于問另一個人,這個人可能是正確的,也可能是錯誤的?!?/p>

對于他的學(xué)生來說,這似乎是人生一課。在學(xué)生以后甚至已經(jīng)不記得勾股定理后,這堂課仍值得一直銘記:不要相信人工智能程序告訴你的一切。不要過于相信它。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • AI大模型可以寫詩,但不擅長數(shù)學(xué)分享二維碼