芥末堆芥末堆

口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法

作者:阿槑 發(fā)布時(shí)間:

口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法

作者:阿槑 發(fā)布時(shí)間:

摘要:算法也不是越準(zhǔn)確越好,需要找到那個(gè)微妙的平衡點(diǎn)。

“one car come, one car go, two car pengpeng, one car die.” 這樣的典型“Chinglish”(中式英語)無論是中國人或是外國人看了都不禁會(huì)心一笑。

近些年,亞洲人的英語發(fā)音一直是美國影視劇中的吐槽對象,但隨著技術(shù)的進(jìn)步,越來越多的人可以借助電子設(shè)備來糾正測評自己的口語了。

目前,語音識(shí)別和測評技術(shù)目前廣泛地應(yīng)用在考試、輔助教學(xué)以及外語學(xué)習(xí)產(chǎn)品中,Rosseta Stone、多鄰國、英語流利說等產(chǎn)品的誕生與發(fā)展跟語音技術(shù)密不可分。這次,多鄰國的語音技術(shù)工程師秦龍來分享一下他們是如何利用語音技術(shù)做英語學(xué)習(xí)產(chǎn)品的。

語言教學(xué)中的語音語言技術(shù)在學(xué)術(shù)界一般稱為CALL系統(tǒng)(computer aided language learning),具體到語音識(shí)別技術(shù),主要是兩方面的應(yīng)用:

1)對語音的流暢度自然度進(jìn)行打分,通俗的說就是評測用戶的發(fā)音和母語說話人的接近程度。

2)識(shí)別出語言后,對語言組織進(jìn)行后續(xù)的檢測。

語音技術(shù)如何幫助你學(xué)外語?

具體到多鄰國的產(chǎn)品中,語音技術(shù)多用于以下兩種學(xué)習(xí)場景:

一般來說,口語學(xué)習(xí)需要鍛煉兩方面的內(nèi)容,一個(gè)是發(fā)音,另外一個(gè)是自我組織語言。因此,第一種學(xué)習(xí)場景,也是最常見的就是大聲朗讀。用戶根據(jù)提供的示例錄音,重復(fù)一段簡短的句子,然后系統(tǒng)通過語音識(shí)別技術(shù)自動(dòng)的對用戶語音的流暢度自然度進(jìn)行打分。同時(shí)在Chrome瀏覽器下,還會(huì)為用戶提供一些發(fā)音反饋,比如哪些詞讀的比較好,哪些詞的發(fā)音不夠準(zhǔn)確等。

第二種練習(xí)項(xiàng)目是語音翻譯,用戶往往不僅需要通過語音作答,而且需要自己來組織語言。在這個(gè)練習(xí)中,用戶看到的是母語,需要自己組織語言將這句話翻譯成正在學(xué)習(xí)的語言,并將其朗讀出來。在這一應(yīng)用場景下,首先需要通過語音識(shí)別技術(shù)將用戶的語音識(shí)別成文字,然后再通過自然語言處理技術(shù)來分析用戶的用詞是否準(zhǔn)確,語法是否規(guī)范,以及內(nèi)容是否貼切。目前這項(xiàng)練習(xí)僅支持Chrome瀏覽器,近期將會(huì)加入app。

顯而易見,相比于大聲朗讀,第二種應(yīng)用場景更為困難,也面臨著更多的技術(shù)難點(diǎn)。

念錯(cuò)了?那就多念幾遍

要幫助用戶更高效地學(xué)習(xí),涉及到的不僅僅是語音技術(shù),更為重要的是機(jī)器學(xué)習(xí)和算法,秦龍說,“當(dāng)用戶使用多鄰國進(jìn)行口語練習(xí)時(shí),我們會(huì)讓用戶更多的練習(xí)那些他們說錯(cuò)的詞,少練習(xí)掌握的很好的詞,提高學(xué)習(xí)效率?!?/p>

根據(jù)用戶對于具體詞匯的錯(cuò)誤率、熟悉程度等因素進(jìn)行考量,由機(jī)器學(xué)習(xí)算法來決定在每個(gè)課程中用戶所看到的不同的習(xí)題。多鄰國在最近宣布4500萬美元融資的公告中也提到,融資之后會(huì)將重點(diǎn)放在機(jī)器學(xué)習(xí)和自適應(yīng)課程的開發(fā)上。

目前的語言學(xué)習(xí)平臺(tái)還有諸多不完美之處,比如機(jī)器有時(shí)會(huì)在評判用戶語音時(shí)犯錯(cuò)誤,給出的反饋比較少或者不準(zhǔn)確,或者是學(xué)習(xí)材料過于單調(diào)、枯燥、缺乏變化。多鄰國正在從技術(shù)和課程雙方面去改進(jìn):一是通過算法提供更細(xì)致的反饋,另一方面是增加練習(xí)素材的多樣化,為用戶提供在不同語境下練習(xí)口語的機(jī)會(huì)。

算法并不是越準(zhǔn)確越好,需要加入“人性化”的元素

多鄰國在全球有1億用戶,積累了海量的用戶學(xué)習(xí)行為和數(shù)據(jù),在工程師們不斷改進(jìn)提高評測算法的時(shí)候,有一個(gè)很有趣的發(fā)現(xiàn)。“有時(shí)候,我們覺得算法更加準(zhǔn)確了,但用戶的活躍度卻降低了,這讓我們百思不得其解。后來,通過對數(shù)據(jù)的分析,我們發(fā)現(xiàn),由于新算要求用戶對發(fā)音更加準(zhǔn)確,也就是說口語練習(xí)更難了,這導(dǎo)致用戶語音訓(xùn)練的通過率降低,從而影響了用戶的活躍度。也就是說,用戶往往希望有更準(zhǔn)確的算法,同時(shí),又不希望練習(xí)變難。打個(gè)比方就是,學(xué)生希望考試的時(shí)候老師的評卷準(zhǔn)確給出的反饋好,但是題不能難,要避免讓學(xué)生掛掉這科?!彼缘鋵?shí)算法也不是越準(zhǔn)確越好,需要找到那個(gè)微妙的平衡點(diǎn)。

跟著機(jī)器學(xué)習(xí)口語有助于部分用戶克服“不敢說”的障礙,而且有傳統(tǒng)的教學(xué)模式難以比擬的便捷性。但是作為語音技術(shù)工程師,秦龍并不認(rèn)為跟機(jī)器學(xué)習(xí)口語會(huì)完全代替人類。機(jī)器可以很好地識(shí)別、理解比較結(jié)構(gòu)化的語音語言,根據(jù)這個(gè)特點(diǎn),工程師能設(shè)計(jì)出很好的口語學(xué)習(xí)方法。但是在我們使用語言的時(shí)候,會(huì)有很多非結(jié)構(gòu)化,不符合語法甚至可以說是“錯(cuò)誤”的表達(dá)方式。比如,在日常人與人的對話中,會(huì)有很多有很多停頓、重復(fù)、語氣詞?;蛘呤褂煤芏啻~來指代某個(gè)人或者某個(gè)事情,目前的語音技術(shù)和機(jī)器學(xué)習(xí)技術(shù)還難以解決前面提到的這些問題。不過在未來,每個(gè)人也許都會(huì)有一個(gè)計(jì)算機(jī)虛擬助手,幫我們進(jìn)行包括語言學(xué)習(xí)在內(nèi)的很多活動(dòng)。就像電影《Her》里一樣,每個(gè)人都有一個(gè)「OS1」。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點(diǎn)擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法分享二維碼