芥末堆芥末堆

專訪聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮:實(shí)時(shí)音視頻與AI結(jié)合如何賦能教育創(chuàng)新

作者:阿宅 發(fā)布時(shí)間:

專訪聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮:實(shí)時(shí)音視頻與AI結(jié)合如何賦能教育創(chuàng)新

作者:阿宅 發(fā)布時(shí)間:

摘要:一直深耕音視頻互動(dòng)領(lǐng)域的聲網(wǎng)為什么要將RTC和大熱的AI相結(jié)合?

錢奮.jpg聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮

大模型的角逐越來(lái)越激烈,縱觀大模型競(jìng)技場(chǎng)上的選手,基本都是大廠。原因不難理解,大廠有充足的研發(fā)人才和資源,“彈藥”更充足。

在教育領(lǐng)域也是如此,在芥末堆主辦的GET2024·春大會(huì)上,學(xué)而思技術(shù)總監(jiān)、MathGPT負(fù)責(zé)人白錦峰分享道,學(xué)而思做數(shù)學(xué)大模型的原因之一是,公司的技術(shù)研發(fā)和教研人員超3000人,研發(fā)經(jīng)費(fèi)也很高?!爸挥匈Y源的大規(guī)模投入,才能保證將來(lái)的產(chǎn)出?!?/p>

這是否意味著沒(méi)有那么多研發(fā)資源的中小企業(yè)要在大模型的賽道上掉隊(duì)?作為底層實(shí)時(shí)音視頻技術(shù)服務(wù)商,聲網(wǎng)已經(jīng)著手解決這個(gè)難題。

同時(shí),近期多家教育企業(yè)相繼更新升級(jí)自家的學(xué)習(xí)機(jī),智能教育硬件漸入AI時(shí)代,全面覆蓋啟蒙益智、自主輔學(xué)、學(xué)業(yè)提升等教學(xué)需求。一來(lái)一回對(duì)話、與家長(zhǎng)進(jìn)行音視頻溝通,都是學(xué)生與學(xué)習(xí)機(jī)的互動(dòng)場(chǎng)景,這也是聲網(wǎng)能夠充分發(fā)揮自己優(yōu)勢(shì)的領(lǐng)域。

緊跟教育行業(yè)的這些熱點(diǎn)與趨勢(shì),聲網(wǎng)在GET大會(huì)·聲網(wǎng)教育沙龍專場(chǎng),發(fā)布「RTC+AI教育超級(jí)雙擎解決方案」。據(jù)介紹,該解決方案旨在幫助開發(fā)者,通過(guò)這兩個(gè)引擎驅(qū)動(dòng)在線教育模式、場(chǎng)景、體驗(yàn)的創(chuàng)新與升級(jí)。

一直深耕音視頻互動(dòng)領(lǐng)域的聲網(wǎng)為什么要將RTC和大熱的AI相結(jié)合?雙擎都帶來(lái)哪些新功能?將如何幫助教育客戶?

帶著這些疑問(wèn),芥末堆向聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮尋求答案。

為什么將RTC與AI相結(jié)合?

RTC(Real-Time Communication)是實(shí)時(shí)音視頻,是線上教學(xué)不可或缺的基礎(chǔ)設(shè)施;AI是近幾年大火的人工智能技術(shù),正在越來(lái)越廣泛地應(yīng)用于教育領(lǐng)域。聲網(wǎng)為什么要將兩種技術(shù)結(jié)合起來(lái)?

有需求,才有解決方案。一方面隨著GPT-4o、Astra等大模型的發(fā)布,RTC已慢慢成為大模型的關(guān)鍵能力,另一方面,在與教育客戶的直接且深度的溝通過(guò)程中,聲網(wǎng)感知到了最新的變化。

在實(shí)時(shí)音視頻領(lǐng)域,聲網(wǎng)當(dāng)之無(wú)愧是佼佼者。數(shù)據(jù)顯示,在全球集成RTC能力的App中,50%以上都使用了聲網(wǎng)的技術(shù),其中不僅有教育領(lǐng)域,還包括娛樂(lè)等領(lǐng)域。聲網(wǎng)的教育客戶中不乏國(guó)內(nèi)外知名企業(yè)。

近兩年,聲網(wǎng)發(fā)現(xiàn),新老客戶開始慢慢回歸線上大班課。究其原因,大班課是教學(xué)經(jīng)濟(jì)效益和體驗(yàn)效益最好的模型,處在辦學(xué)效益和學(xué)習(xí)效果綜合的平衡點(diǎn)上。然而,雖然客戶的預(yù)算變少了,但對(duì)效果的要求并沒(méi)有降低。他們既要大班課模式,又要小班課甚至1對(duì)1的教學(xué)體驗(yàn),簡(jiǎn)而言之,既要花錢少,又要效果好,這無(wú)疑對(duì)聲網(wǎng)提出了更高的要求。

聲網(wǎng)觀察到的另一個(gè)趨勢(shì)是,智能教育硬件正在快速興起。根據(jù)IDC的數(shù)據(jù),教育硬件以每年30%的增長(zhǎng)率保持增長(zhǎng),學(xué)習(xí)機(jī)和辭典筆幾乎成為現(xiàn)在學(xué)生的標(biāo)配。

另外,聲網(wǎng)發(fā)現(xiàn),客戶對(duì)教育工具的要求和關(guān)注重點(diǎn)正在回到課堂上,課堂互動(dòng)效果更受重視,比如老師的聲音能不能很輕松地傳遞到后排,噪音能否有效去除。

與此同時(shí),生成式AI在教育領(lǐng)域的應(yīng)用越來(lái)越普遍,很多廠商已經(jīng)推出了AI概念的相關(guān)教學(xué)工具,包括AI教學(xué)陪練、教學(xué)和學(xué)情分析、備課等等。聲網(wǎng)相信自己在這個(gè)方向也可以有所作為。

站在當(dāng)下這個(gè)節(jié)點(diǎn),聲網(wǎng)在思考:從2014年創(chuàng)業(yè)以來(lái),聲網(wǎng)已經(jīng)為50%以上線上互動(dòng)的教育機(jī)構(gòu)提供音視頻服務(wù)。未來(lái)5至10年,聲網(wǎng)還應(yīng)該為教育行業(yè)做些什么?

聲網(wǎng)思考的結(jié)果是繼續(xù)為線上線下教學(xué)客戶提供更優(yōu)質(zhì)的音視頻體驗(yàn),在追求體驗(yàn)提升的基礎(chǔ)上,還要兼顧服務(wù)成本、辦學(xué)效益。這也是為什么聲網(wǎng)推出RTC+AI的教育雙引擎的概念。聲網(wǎng)希望,在雙擎的驅(qū)動(dòng)下,教育創(chuàng)新的這輛汽車將行駛得更快。

雙引擎如何拉動(dòng)教育創(chuàng)新?

RTC:支持多維直播,與主流學(xué)習(xí)機(jī)適配

據(jù)介紹,聲網(wǎng)在RTC方面主要升級(jí)了在線課堂教學(xué)體驗(yàn),包括超強(qiáng)互動(dòng)、多維直播、絲滑流暢、教育硬件適配等新功能。

聲1.png

「絲滑流暢」自不必說(shuō),聲網(wǎng)的實(shí)時(shí)音視頻技術(shù)一直在追求實(shí)現(xiàn)超低延遲秒接入,此次的升級(jí)使體驗(yàn)更優(yōu)化,能確保每一堂課 0干擾、無(wú)卡頓。·

「超強(qiáng)互動(dòng)」體現(xiàn)在技術(shù)和場(chǎng)景工具兩個(gè)方面。技術(shù)層面,新解決方案讓師生互動(dòng)的延遲變得更加無(wú)感知;場(chǎng)景工具層面,僅僅是面對(duì)面的溝通還不夠,還需要一些工具來(lái)促進(jìn)實(shí)時(shí)課堂的參與度,學(xué)生可隨時(shí)通過(guò)上麥、彈幕、文字消息與老師問(wèn)答溝通,還能使用互動(dòng)教學(xué)組件,包括搶紅包、搶答、投票等。

「多維直播」這個(gè)功能引發(fā)了芥末堆的好奇。聲網(wǎng)在介紹中提到,“「多維直播」支持實(shí)時(shí)直播和錄像直播兩種教學(xué)模式,錄像直播(偽直播)也能達(dá)到實(shí)時(shí)直播的教學(xué)效果;支持超級(jí)小班課模式,分組學(xué)習(xí)與線上雙師,打造‘大班課堂,小班體驗(yàn)’”。

為什么錄播還要追求實(shí)時(shí)直播的效果?這種效果又是如何實(shí)現(xiàn)的?

錢奮解釋道,“雙減”后,教育公司為了節(jié)約成本,會(huì)錄制好課程再上傳到線上給學(xué)員觀看,這種情況在職教領(lǐng)域比較常見,因?yàn)槌扇丝梢宰杂砂芽刈约旱膶W(xué)習(xí)時(shí)間。具體功能上,「多維直播」支持客戶定制服務(wù),比如學(xué)生看錄播課的時(shí)候,中間會(huì)跳出一道題目,答完題才能進(jìn)入下面的環(huán)節(jié)。

在K12領(lǐng)域同樣有這樣的情況。比如,直播課的時(shí)間與學(xué)生的時(shí)間相沖突,通過(guò)「多維直播」,學(xué)生和家長(zhǎng)可以選擇自己合適的時(shí)間來(lái)上錄播課,但能有直播的體驗(yàn)。雖然是錄播課,但在聲網(wǎng)技術(shù)的加持下,老師也會(huì)提問(wèn),還有積分和發(fā)紅包環(huán)節(jié)。而且“偽直播”課并不是隨時(shí)都可以上,可以規(guī)定學(xué)生必須在某個(gè)時(shí)間段完成,比如這堂課是7:00-9:00,可以設(shè)置9點(diǎn)以后就不能打開。所以,對(duì)孩子來(lái)說(shuō),這就是在直播。聲網(wǎng)的技術(shù)也支持讓學(xué)生進(jìn)入課堂之后自動(dòng)分組,雖然對(duì)機(jī)構(gòu)來(lái)說(shuō)是大班課,但是學(xué)生的感受卻是小班課。

針對(duì)教育企業(yè)紛紛推出的學(xué)習(xí)機(jī),聲網(wǎng)基于自己的優(yōu)勢(shì),也對(duì)學(xué)習(xí)機(jī)做了適配。因?yàn)閷W(xué)生除了可以通過(guò)學(xué)習(xí)機(jī)學(xué)習(xí)內(nèi)容,還能觀看直播課、進(jìn)行家校溝通、家長(zhǎng)伴學(xué),這些場(chǎng)景都需要實(shí)時(shí)音視頻技術(shù)的支持。

目前,聲網(wǎng)的解決方案全面適配市面上主流的學(xué)習(xí)機(jī)品牌,其優(yōu)勢(shì)在于低端機(jī)型性能優(yōu)化,低內(nèi)存占用,極小包體、超低功耗,還支持全平臺(tái)入口加入課堂,行業(yè)內(nèi)率先適配鴻蒙HarmonyOS NEXT。

乍一看,聲網(wǎng)與學(xué)習(xí)機(jī)似乎沒(méi)有關(guān)聯(lián),其實(shí)不然。“我們疫情前就開始做了,之前字節(jié)跳動(dòng)的大力臺(tái)燈也采用了聲網(wǎng)整體的方案,所以聲網(wǎng)對(duì)學(xué)習(xí)機(jī)的適配能力已經(jīng)非常成熟了?!?/p>

關(guān)于如何將聲網(wǎng)的解決方案與學(xué)習(xí)機(jī)集成,錢奮介紹,硬件出廠的時(shí)候聲網(wǎng)就會(huì)把SDK嵌入進(jìn)去,非常方便。

AI:讓課堂更沉浸,用大模型提升教學(xué)成效

AI這個(gè)引擎帶動(dòng)的是AI沉浸課堂的打造和大模型輔助教學(xué)。

在處理音頻方面,聲網(wǎng)的智慧教室音頻(3A)解決方案具備AI降噪、AI去混響、AI回聲消除等能力,能讓課堂變得更加沉浸,深度還原線下教室的上課體驗(yàn)。

錢奮提到,聲網(wǎng)的技術(shù)路線是從“連線”到“在線”再到“在場(chǎng)”,目前處于“在線”的階段,會(huì)繼續(xù)朝著“在場(chǎng)”前進(jìn)。

2024年大模型應(yīng)用大爆發(fā),教育領(lǐng)域更是不斷被重塑,AI大模型與教育的結(jié)合已是大勢(shì)所趨。聲網(wǎng)了解到,很多客戶想嘗試大模型,比如說(shuō)AI Tutor,這些場(chǎng)景與音視頻強(qiáng)相關(guān),是聲網(wǎng)擅長(zhǎng)的方向。

目前,市面上的一些語(yǔ)音助手的技術(shù)邏輯是把聽到的語(yǔ)音轉(zhuǎn)換成文字,使用文字回答后再轉(zhuǎn)換成語(yǔ)音回復(fù)給用戶,因此這類語(yǔ)音助手無(wú)法聽出語(yǔ)音中包含的情緒,存在延遲較高的問(wèn)題。

GPT.png
OpenAI發(fā)布會(huì)上,用戶演示與GPT-4o的實(shí)時(shí)語(yǔ)音對(duì)話

OpenAI最新發(fā)布的GPT-4o讓語(yǔ)音視頻的交互能力再上一個(gè)臺(tái)階,用大模型進(jìn)行更具真實(shí)感與沉浸感的實(shí)時(shí)語(yǔ)音正在成為現(xiàn)實(shí),平均延時(shí)低至幾百毫秒,這無(wú)疑為包括聲網(wǎng)在內(nèi)的RTC行業(yè)帶來(lái)很大的市場(chǎng)機(jī)遇,未來(lái)借助低延時(shí)、高音質(zhì)的RTC技術(shù),有望打造更極致的人與AI交互體驗(yàn)。據(jù)了解,聲網(wǎng)也在利用新技術(shù),研發(fā)更像真人的AI口語(yǔ)老師,不久將面世。

同時(shí),聲網(wǎng)的技術(shù)還支持?jǐn)?shù)字人AI助教,能實(shí)現(xiàn)7*24 小時(shí)的全天候陪伴輔導(dǎo),隨時(shí)隨地答疑學(xué)生的課后難題。

頭部廠商都在用,對(duì)中小企業(yè)更友好

聲網(wǎng)發(fā)布「RTC+AI教育超級(jí)雙擎解決方案」并不是一時(shí)興起,從一年前就已經(jīng)開始布局。

錢奮表示:“實(shí)時(shí)音視頻與AI結(jié)合,我們一直在做,但需要一些客戶來(lái)驗(yàn)證,經(jīng)過(guò)驗(yàn)證后,我們認(rèn)為這個(gè)方案是成熟的,所以現(xiàn)在才發(fā)布。”

作為底層技術(shù)服務(wù)商,聲網(wǎng)的解決方案通常適用于各種規(guī)模的教育客戶,目前該解決方案的客戶包括多家頭部廠商,也有不少的中小企業(yè)。聲網(wǎng)觀察到,大企業(yè)和中小企業(yè)的需求有所不同。

錢奮解釋道,“考慮到自己的品牌和業(yè)務(wù),大企業(yè)的需求會(huì)更定制化;中小企業(yè)可以直接用我們的解決方案,他們可以在跑通之后再做更多的定制化,投入更多資源?!?/p>

“我覺(jué)得這套解決方案對(duì)中小客戶更友好,因?yàn)椴恍枰逗芏嗟难邪l(fā)資源,也不需要那么長(zhǎng)的研發(fā)周期。研發(fā)資源就是成本,研發(fā)周期是決定一家企業(yè)有沒(méi)有可能活下來(lái)的一個(gè)很重要的因素?!彼f(shuō)。

聲網(wǎng)主要為客戶提供完整的技術(shù)能力,聚焦穩(wěn)定性、定制性和簡(jiǎn)易性幾大原則。錢奮表示,聲網(wǎng)既為客戶提供聲網(wǎng)研發(fā)的模型,也提供市面上的通用大模型,由客戶自主選擇?!叭绻蛻粽J(rèn)為通用大模型夠用,就不用再多加訓(xùn)練;如果客戶希望做得更好,更垂直,還是需要用自己的數(shù)據(jù)進(jìn)行訓(xùn)練?!?/p>

“我們未來(lái)也可能會(huì)推出聚焦教育的小模型,小模型的體積包更小,更方便教育客戶接入?!卞X奮透露。

今年是聲網(wǎng)成立十周年。截至目前,聲網(wǎng)在全球的活躍應(yīng)用數(shù)已經(jīng)超過(guò)74萬(wàn),全球數(shù)據(jù)中心超過(guò)250,單月通話分鐘數(shù)超過(guò)600億。這些數(shù)字還在持續(xù)增長(zhǎng)。

能有如此成就,得益于聲網(wǎng)一直以來(lái)對(duì)市場(chǎng)動(dòng)向的洞察,以及在技術(shù)能力上的深耕。此次發(fā)布的「RTC+AI教育超級(jí)雙擎解決方案」標(biāo)志著,聲網(wǎng)在助力教育創(chuàng)新的道路上,往前又邁了一步。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點(diǎn)擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。
來(lái)源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 專訪聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮:實(shí)時(shí)音視頻與AI結(jié)合如何賦能教育創(chuàng)新分享二維碼