加州大學(xué)圣迭戈分校的研究人員建立了一個機(jī)器學(xué)習(xí)系統(tǒng),可以預(yù)測鳥兒唱什么。這項研究最大的創(chuàng)新是為“聲帶假體”提供“實(shí)時語音合成”,但還遠(yuǎn)不止于此。教AI理解這些聲音是訓(xùn)練中很重要的一步,這些系統(tǒng)可以取代生物學(xué)上的人類聲音。
與人類自然的從「想到」到「說出」模式相比,當(dāng)前最先進(jìn)的語音轉(zhuǎn)換系統(tǒng)也很慢。
當(dāng)前頂尖的NLP系統(tǒng)還在努力跟上人類的思維速度。
比如,與谷歌助手或Alexa虛擬助手互動時,通常停頓時間會比你預(yù)期的長,不能實(shí)現(xiàn)與真實(shí)的人交談的流暢度。
AI需要時間處理你的語音,它要確定每個單詞對它來說意味著什么,是否在它的能力范圍之內(nèi),然后找出哪些軟件包或程序可以訪問和部署,最后再輸出理解結(jié)果。
從宏觀的角度來看,這些基于云計算的系統(tǒng)運(yùn)行速度已經(jīng)很快了,但仍然不足以給不會說話的人創(chuàng)造一個無縫接口,讓他們以思維的速度「發(fā)出聲音」。
從鳥鳴研究開始
「鳴鳥」(一種鳥)是研究復(fù)雜「發(fā)聲行為」的一個很有吸引力的模型。
鳥鳴與人類語言有許多獨(dú)特的相似之處,對它的研究使人們對學(xué)習(xí)、執(zhí)行和維持發(fā)聲運(yùn)動技能背后的多種機(jī)制和電路有了普遍的認(rèn)識。
此外,產(chǎn)生鳥鳴的生物力學(xué)與人類和一些非人類靈長類動物有相似之處。
在這項新的研究中,研究小組在12只斑胸草雀的大腦中植入電極,然后開始記錄它們唱歌。
但是僅僅訓(xùn)練人工智能識別鳥鳴時的神經(jīng)活動是不夠的,即使是鳥類的大腦也太過復(fù)雜,無法完整地描繪出神經(jīng)元之間的交流方式。
因此,研究人員訓(xùn)練了另一個系統(tǒng),將實(shí)時歌曲減少到AI可以識別的模式。
在這項研究中,研究人員展示了一個用于鳥鳴的聲樂合成器,通過將植入運(yùn)動前核HVC的電極陣列記錄的神經(jīng)群體活動映射到鳥鳴的低維壓縮表征上,使用可實(shí)時實(shí)施的簡單計算方法來實(shí)現(xiàn)。
使用鳥類發(fā)聲器官(即syrinx,鳴管)的生成性生物力學(xué)模型作為這些映射的低維目標(biāo),可以合成符合鳥類自身歌聲的聲音。
這些結(jié)果提供了一個概念證明:高維的、復(fù)雜的自然行為可以「直接」從正在進(jìn)行的神經(jīng)活動中合成。這可能會啟發(fā)其他物種通過利用外圍系統(tǒng)的知識和其輸出的時間結(jié)構(gòu)來實(shí)現(xiàn)類似的假體方法。
實(shí)驗描述
該研究描述了兩種從斑胸草雀(Taeniopygia guttata)運(yùn)動前核記錄的神經(jīng)活動中合成真實(shí)發(fā)聲信號的方法。每種方法都利用了發(fā)聲運(yùn)動過程的一個不同特征。
首先,研究人員利用了對鳥鳴產(chǎn)生的生物力學(xué)的理解,采用了一個發(fā)聲器官的生物力學(xué)模型,該模型在低維參數(shù)空間中捕捉到了大部分鳥鳴的光譜-時間復(fù)雜性(spectro-temporal complexity)。
與歌曲的完整時頻表示相比,這種降維能夠訓(xùn)練一個淺層前饋神經(jīng)網(wǎng)絡(luò)(FFN),將神經(jīng)活動映射到模型參數(shù)上。
作為第二種合成方法,研究人員利用了神經(jīng)活動和歌曲之間的時間協(xié)方差中的預(yù)測成分,這可以由一個直接在聲樂輸出的頻域表示(頻譜圖)上訓(xùn)練的遞歸、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)學(xué)習(xí)。
每個合成的神經(jīng)元輸入來自感覺-運(yùn)動核HVC,那里的神經(jīng)元產(chǎn)生高層次的指令,驅(qū)動學(xué)習(xí)歌曲的產(chǎn)生。
成年斑胸草雀單獨(dú)演唱由3-10個音節(jié)序列組成的固定主題歌曲。
唱歌時,多種HVC神經(jīng)元亞型的活動受到調(diào)節(jié):針對X區(qū)和RA區(qū)的投射神經(jīng)元(HVCx/RA)在某個主題歌曲期間表現(xiàn)出短、精確、稀疏的活動爆發(fā),而抑制性中間神經(jīng)元(HVCI)在唱歌時顯示出更多的tonic活動。
為了獲得合奏的HVC活動和聲音輸出,我們在雄性成年斑胸草雀(>120天大)身上植入了16-channel或32-channel的Si探頭,并在每只鳥唱歌時同時記錄細(xì)胞外電壓(n=4只鳥,每次70-120個發(fā)聲主題)。
使用Kilosort對神經(jīng)記錄進(jìn)行自動分類,并進(jìn)行人工整理以排除噪音。
根據(jù)違反折返期(refractory period violations)的數(shù)量,非噪聲集群被分為單個單位活動SUA(single-unit activity)或多單位活動(single- or multi-unit activity,MUA),并根據(jù)唱歌時活動的稀疏程度,推測為投射或中間神經(jīng)元。
錄音以MUA群(n = 88)和HVC中間神經(jīng)元(HVCI;n = 29)為主,相對較少的推測投影神經(jīng)元(HVCx/RA;n = 15)。Figure 1A顯示了與歌曲對齊的神經(jīng)活動直方圖的例子。Figure S1顯示了每只鳥的集群數(shù)量的光柵示例。
具有生物力學(xué)意義的壓迫增強(qiáng)神經(jīng)驅(qū)動的合成
通過神經(jīng)活動合成復(fù)雜的運(yùn)動序列需要兩個高維表征之間的映射。為了降低問題的維數(shù),我們利用了一個鳥類發(fā)聲器官的「生物力學(xué)模型」,該模型將神經(jīng)活動轉(zhuǎn)化為發(fā)聲輸出。
該模型考慮了鳴管和聲道的功能,鳴管包含唇褶(labial folds),當(dāng)受到亞鳴管氣囊的壓力時,唇褶會振蕩,并調(diào)節(jié)氣流發(fā)出聲音(Figure 1B)。
唇的動態(tài)可以按照非線性振蕩器的運(yùn)動方程進(jìn)行建模,其中產(chǎn)生的聲音的特征由兩個時間變化的參數(shù)決定,代表生理上的運(yùn)動指令。
為了通過生物力學(xué)模型從神經(jīng)活動中合成歌曲,首先要擬合模型的參數(shù),生成每種發(fā)聲的合成版本。
每次訓(xùn)練中,我們隨機(jī)選擇60%的模體進(jìn)行訓(xùn)練,將每個模體分成5毫秒的單元,然后訓(xùn)練一個單隱層的FFNN,在50毫秒內(nèi)獨(dú)立于神經(jīng)活動預(yù)測每個單元相應(yīng)的生物力學(xué)模型參數(shù)。神經(jīng)活動用每個簇的平均放電速率表示,分成1-ms 的單元。
為了避免引入時間相關(guān)性,研究人員將每對神經(jīng)活動窗口和目標(biāo)模型參數(shù)呈現(xiàn)給網(wǎng)絡(luò)的順序隨機(jī)化。通過訓(xùn)練,預(yù)測神經(jīng)活動測試集對應(yīng)的生物力學(xué)模型參數(shù)值,并將模型的微分方程積分得到神經(jīng)驅(qū)動合成歌曲的每一個單元。
這就產(chǎn)生了合成的發(fā)聲效果,聽起來和鳥類自己的聲音很相似。
相反,用FFNN直接預(yù)測歌曲的頻譜-時間特征會導(dǎo)致低質(zhì)量的合成。研究人員訓(xùn)練了一個與之前類似的網(wǎng)絡(luò),但以歌曲的頻譜成分為目標(biāo),即以64個頻段的功率為代表。
以這種方式為每只鳥合成的歌曲的例子(Figure 3; Audio S1, S2, S3, and S4)顯示了FFNN如何未能產(chǎn)生斑胸草雀歌曲中典型的定義明確的諧波堆,以及如何忠實(shí)地再現(xiàn)聲帶的起伏。
與光譜-時間系數(shù)相比,F(xiàn)FNN 預(yù)測模型參數(shù)的能力不同((Figures 2, 3, and 4),表明降低行為的維度可以增強(qiáng)預(yù)測能力。為了證實(shí)這一點(diǎn),研究人員訓(xùn)練了FFNN來重現(xiàn)行為的不同「壓縮」,即譜圖的前3個主成分(PC)。
從神經(jīng)活動中預(yù)測3個PC值的表現(xiàn)與預(yù)測生物力學(xué)模型參數(shù)的表現(xiàn)相似(Figure S4A)。后者的優(yōu)勢在于其生成能力,可以產(chǎn)生與BOS更相似的歌曲。
未能準(zhǔn)確預(yù)測鳥類主題的光譜系數(shù)可能反映了這個模型無法捕捉更復(fù)雜的跨響應(yīng)群的時間動態(tài),在特定的發(fā)聲之前。
為了捕捉這些動態(tài),研究人員訓(xùn)練了一個LSTM,直接從前面50毫秒的神經(jīng)活動中預(yù)測歌曲的頻譜成分(64個頻帶),使用與前面部分描述的相同的輸入和輸出數(shù)據(jù)。與 FFNN 不同,LSTM 產(chǎn)生一個神經(jīng)驅(qū)動的歌曲合成,聽起來類似于預(yù)期的鳥自己的歌曲(Figure 3; Audio S1, S2, S3,及S4)
由于雄性斑胸草雀的種類有限,這可能意味著可以通過相對簡單的方法實(shí)現(xiàn)直接合成。然而,由于 FFNN 的損失函數(shù)接近于正則化的非線性回歸,因此與所有其他方法相比,它預(yù)測出的歌曲質(zhì)量較差。原因尚不完全清楚,但它可能反映了數(shù)據(jù)集的神經(jīng)元亞型組成。
該研究演示了一個復(fù)雜通信信號的BMI,使用計算塊,可以在一個建立的動物模型中實(shí)時實(shí)現(xiàn),用于產(chǎn)生和學(xué)習(xí)復(fù)雜的聲音行為。該方法的優(yōu)勢在于能夠找到行為的低維參量化,這種方式可以通過記錄相對較小的樣本(幾十個)神經(jīng)元的活動來驅(qū)動。這樣做與記錄從表面位于細(xì)胞 HVC 可以通過侵入性較小的微電極陣列,不僅能夠分辨 LFP,這已被證明適合BMI,還有 SUA 和 MUA。
這提供了一個新穎的工具來探索「神經(jīng)回路基礎(chǔ)」的產(chǎn)生,獲取和保持聲音通信信號,并解鎖進(jìn)入新的模型和實(shí)驗,旨在了解神經(jīng)元的活動是如何轉(zhuǎn)化為自然行為,以及如何外圍效應(yīng)塑造行為的神經(jīng)基礎(chǔ)。
該方法也為「聲帶修復(fù)」策略提供了一個試驗場。雖然鳥鳴聲與人類語言有很多明顯的區(qū)別,但兩種語言系統(tǒng)有很多相似之處,包括「連續(xù)組織」的特點(diǎn)和「習(xí)得」策略,神經(jīng)元組織和功能的類比,遺傳基礎(chǔ),以及發(fā)聲的物理機(jī)制,實(shí)驗的可達(dá)性、對神經(jīng)系統(tǒng)和外周系統(tǒng)的相對先進(jìn)的理解,以及作為發(fā)聲和學(xué)習(xí)的發(fā)達(dá)模型的地位,這都使鳴鳥成為一個有吸引力的動物模型,以促進(jìn)語音BMI(speech BMI),很像運(yùn)動BMI的非人靈長類動物模型。
該論文原始數(shù)據(jù)、代碼資源均已開放。
論文作者之一Shukai Chen,目前是加利福尼亞大學(xué)圣迭戈分校生物工程學(xué)院在讀博士,研究方向為計算神經(jīng)科學(xué)。
語音BMI鋪墊DL再次復(fù)興
該實(shí)驗確實(shí)為一個突出的問題提供了解決方案。實(shí)時處理鳥鳴令人印象深刻,用人類語言復(fù)制這些結(jié)果將會令人驚奇。
但是,這項研究仍處于早期階段,不一定適用于其他語音系統(tǒng)。為了讓它運(yùn)行得足夠快,研究人員利用語音分析這一捷徑,當(dāng)把它擴(kuò)展到鳥鳴以外時,這個捷徑可能就不起作用了。
但隨著進(jìn)一步的發(fā)展,這可能是自2014年「深度學(xué)習(xí)復(fù)興」以來「腦機(jī)接口」的第一次巨大的技術(shù)飛躍。
參考資料:
https://www.cell.com/current-biology/fulltext/S0960-9822(21)00733-8?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0960982221007338%3Fshowall%3Dtrue#%20
https://thenextweb.com/news/researchers-created-brain-interface-sing-what-birds-think
本文轉(zhuǎn)載自微信公眾號“新智元“(ID:AI_era),來源:CELL,編輯LQ。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場,轉(zhuǎn)載請聯(lián)系原作者。
來源:新智元