用機器學習解碼一顆“失聲”15年的大腦，讓它“開口說話”

大數據文摘

+ 關注

2022-11-01 16:38

459次閱讀

大數據文摘作品

作者：Miggy

對于癱瘓患者來說，最大的苦楚來自無法與外界進行溝通。雖然大腦依然活躍并且希望表達，但是無法驅動發聲肌肉，會讓這類患者的語言機制逐漸蛻化。

來自加州大學舊金山分校神經外科主任Edward Chang正在為失去說話能力的人開發腦機接口技術。他的實驗室致力于解碼與聲道命令相關的大腦信號，并通過神經植入物，將大腦的語言機能，通過計算機輸出出來。該項目不僅需要當今最好的神經技術硬件，還需要強大的機器學習模型。

最近，這一技術也取得了長足的進步，讓一位因癱瘓“失聲”15年的患者利用電腦開始了與外界的交流。Chang也將這一技術過程記錄了下來，發布在IEEE上。

一起來看看。

讓一顆15年沒有說話的大腦“開口

電腦屏幕上顯示“你要喝點水嗎？”這個問題。下面，三個小點正在閃爍，隨后一行字出現：“不，我不渴。”

大腦的活動讓溝通發生——值得一提的是，發出這段對話的，是一個超過 15 年沒有說話的失聲者的大腦。15年前，由于一次中風，他的大腦和身體其他部位就“斷聯”了，這位患者與外界的溝通從此停擺。他嘗試使用許多新技術嘗試與外界交流；最近，他使用附在棒球帽上的指針在觸摸屏上敲擊單詞，這種方法有效但速度慢。

最近，這位患者自愿參加了我的研究小組在舊金山加利福尼亞大學的臨床試驗，希望能探索一種更快的溝通方法。到目前為止，他只在研究期間可以利用大腦產生文字的這套技術系統，但他希望幫助將這項技術開發成像他這樣的人可以在日常生活中使用的東西。

在我們的試點研究中，這位志愿者的大腦表面覆蓋了一個薄而靈活的電極陣列。電極記錄神經信號并將它們發送到語音解碼器，語音解碼器將信號翻譯成他想說的話。這是無法說話的癱瘓者第一次使用神經技術從大腦中“廣播”出整個單詞，而不僅僅是字母。

該試驗是十多年來對支配言語的潛在大腦機制研究的成果，我們為迄今為止所取得的成就感到無比自豪。但我們才剛剛開始。我在 UCSF 的實驗室正在與世界各地的同事合作，使這項技術足夠安全、穩定和可靠，足以滿足家庭日常使用。我們還在努力提高系統的性能，因此值得付出努力。

第一個版本的腦機接口給了志愿者一個包含 50 個實用單詞的詞匯。

神經植入物如何工作？

在過去的二十年里，神經植入物技術取得了長足的進步。用于聽力的假體植入物發展得最遠，其設計與內耳的耳蝸神經接口或直接進入聽覺腦干。還有大量關于視網膜和大腦植入物的研究，以及為假手提供觸覺的努力。所有這些感官假肢都從外部世界獲取信息，并將其轉換為電信號，輸入大腦的處理中心。

上周，文摘菌還報道了一篇通過植入物幫助嗅覺失靈的患者重新感到味覺的案例。

另一類神經假肢記錄大腦的電活動并將其轉換為控制外部世界的信號，例如機械臂、視頻游戲控制器或計算機屏幕上的光標。BrainGate 聯盟等組織已使用最后一種控制方式來讓癱瘓的人輸入單詞——有時一次輸入一個字母，有時使用自動完成功能來加快輸入速度。

這類通過大腦進行打字的技術并非首創，不過，研究者通常將植入物放置在運動皮層，也即是控制運動的大腦部分。然后通過用戶想象某些物理動作來控制在虛擬鍵盤上移動的光標。另一種方法是我的一些合作者在 2021 年的一篇論文中首創的，它讓一個用戶想象他正拿著筆在紙上寫信，在運動皮層中產生信號，這些信號被翻譯成文本。這種方法的打字速度誕生了新的記錄，使志愿者每分鐘可以寫大約 18 個單詞。

在我們最新的實驗室研究中，我們采取了更高效率的方法。我們不是解碼用戶移動光標或筆的意圖，而是解碼控制聲道的意圖，包括控制喉部（通常稱為語音盒）、舌頭和嘴唇的數十塊肌肉。

對于癱瘓的人來說，看似簡單的對話設置是由復雜的神經技術硬件和解碼他的大腦信號的機器學習系統實現的。

十多年前，我開始在這個領域工作。作為一名神經外科醫生，我經常會看到嚴重受傷導致無法說話的患者。令我驚訝的是，在許多情況下，腦損傷的位置與我在醫學院學到的綜合征不匹配，我意識到我們仍然需要學習很多關于大腦如何處理語言的知識。我決定研究語言的潛在神經生物學，如果可能的話，開發一種腦機接口 (BMI) 來恢復失去語言的人的交流。除了我的神經外科背景外，我的團隊還擁有語言學、電氣工程、計算機科學、生物工程和醫學方面的專業知識。

肌肉如何幫你說話

語言是使人類與眾不同的能力之一。很多其他物種都會發聲，但只有人類以無數不同的方式組合了一組聲音來表達。這也是一種非常復雜的運動行為——一些專家認為這是人們執行的最復雜的運動行為。說話是通過聲道的調制氣流的產物；我們通過在喉部聲帶中產生可聽見的振動并改變嘴唇、下巴和舌頭的形狀來塑造呼吸。

聲道的許多肌肉與基于關節的肌肉（例如手臂和腿部的肌肉）完全不同，后者只能以幾種規定的方式移動。例如，控制嘴唇的肌肉是括約肌，而構成舌頭的肌肉更多地受液壓控制——舌頭主要由固定體積的肌肉組織組成，因此移動舌頭的一部分會改變其形狀別處。控制這些肌肉運動的物理原理與二頭肌或腘繩肌完全不同。

因為涉及的肌肉如此之多，并且它們每一個都有如此多的自由度，所以基本上有無數種可能的配置。但是當人們說話時，事實證明他們使用的核心動作相對較少（在不同的語言中會有所不同）。例如，當說英語的人發“d”音時，他們會把舌頭放在牙齒后面；當他們發出“k”音時，他們的舌根會向上接觸到口腔后部的天花板。很少有人意識到說出最簡單的詞所需的精確、復雜和協調的肌肉動作。

團隊成員 David Moses 查看患者腦電波讀數 [左屏幕] 和解碼系統活動顯示 [右屏幕]。

我的研究小組專注于向面部、喉嚨、嘴巴和舌頭的肌肉發送運動命令的大腦運動皮層部分。這些大腦區域是多任務的：它們管理產生語言的肌肉運動，以及吞咽、微笑和接吻的相同肌肉的運動。

研究這些區域的神經活動需要毫米級的空間分辨率和毫秒級的時間分辨率。從歷史上看，無創成像系統已經能夠提供其中之一，但不能同時提供兩者。當我們開始這項研究時，我們發現關于大腦活動模式如何與最簡單的語音組成部分相關聯的數據非常少：音素和音節。

在這里，我們要感謝我們的志愿者。在 UCSF 癲癇中心，準備手術的患者通常會通過手術將電極放置在他們的大腦表面上幾天，這樣我們就可以繪制出癲癇發作時所涉及的區域。在這幾天的有線停機期間，許多患者自愿參加神經學研究實驗，這些實驗利用了他們大腦中的電極記錄，讓我們能夠研究患者說話時的神經活動模式。

所涉及的硬件稱為皮層電圖(ECoG)。ECoG 系統中的電極不會穿透大腦，而是位于大腦表面。我們的陣列可以包含數百個電極傳感器，每個傳感器記錄數千個神經元。到目前為止，我們已經使用了一個具有 256 個通道的陣列。我們在這些早期研究中的目標是發現人們說簡單音節時皮層活動的模式。我們要求志愿者說出特定的聲音和單詞，同時記錄他們的神經模式并跟蹤他們的舌頭和嘴巴的運動。有時我們通過讓他們涂上彩色面部彩繪并使用計算機視覺系統提取運動手勢來做到這一點；其他時候，我們使用位于患者頜下的超聲波機器對他們移動的舌頭進行成像。

該系統從覆蓋在患者大腦上的柔性電極陣列開始，以接收來自運動皮層的信號。該陣列專門捕獲用于患者聲道的運動命令。一個固定在頭骨上的端口引導連接到計算機系統的電線，該系統將大腦信號解碼并將其翻譯成患者想說的話，再將他們的答案展示在顯示屏上。

我們使用這些系統將神經模式與聲道的運動相匹配。起初，我們有很多關于神經代碼的問題。一種可能性是神經活動編碼了特定肌肉的方向，大腦本質上就像按下鍵盤上的鍵一樣打開和關閉這些肌肉，并且通過另一種模式決定肌肉收縮的速度。另一個是神經活動與用于產生某種聲音的肌肉收縮的協調模式相對應。（例如，要發出“aaah”的聲音，舌頭和下巴都需要下垂。）我們發現，有一個表示圖可以控制聲道的不同部分，以及不同的大腦區域。我們可以將二者結合起來，以產生流利的言語。

人工智能在當今神經技術中的效用

我們的工作取決于過去十年人工智能的進步。我們可以將收集到的關于神經活動和語音運動學的數據輸入神經網絡，然后讓機器學習算法在兩個數據集之間的關聯中找到模式，進而在神經活動和產生的語音之間建立聯系，并使用這個模型來產生計算機生成的語音或文本。但是這種技術無法為癱瘓的人訓練算法，因為我們缺少一半的數據：我們有神經模式，但沒有關于相應的肌肉運動。

我們意識到，使用機器學習的更聰明的方法是將問題分為兩個步驟。首先，解碼器將來自大腦的信號翻譯成聲道肌肉的預期運動，然后將這些預期運動翻譯成合成語音或文本。

我們稱其為仿生方法，因為它復制了生物學的運動模式；在人體中，神經活動直接負責聲道的運動，僅間接負責發出的聲音。這種方法的一大優勢在于訓練解碼器將肌肉運動轉化為聲音的第二步。因為聲道運動和聲音之間的關系更容易獲取，我們能夠在來自未癱瘓的人的大型數據集上訓練解碼器。

下一個重大挑戰是將技術帶給真正可以從中受益的人。

美國國立衛生研究院 (NIH) 正在資助我們的試點試驗，該試驗于 2021 年開始。我們已經有兩名植入了 ECoG 陣列的癱瘓志愿者，我們希望在未來幾年招募更多人。主要目標是改善他們的溝通，我們以每分鐘字數來衡量績效。使用全鍵盤打字的成年人平均每分鐘可以輸入 40 個單詞，最快的打字員可以達到每分鐘 80 個單詞以上的速度。

未來：用聲音代替文字輸出

我們認為，利用語音系統說話的效果會更好。人類講話比打字快得多：說英語的人一分鐘可以輕松地說出 150 個單詞。我們想讓癱瘓的人以每分鐘 100 字的速度進行交流。為了實現這一目標，我們還有很多工作要做。

植入程序和其他的植入物類似。首先，外科醫生切除一小部分顱骨；接下來，將柔性 ECoG 陣列輕輕放置在皮層表面。然后將一個小端口固定在顱骨上，并通過頭皮上的一個單獨開口離開。我們目前需要這個端口，它連接到外部電線以從電極傳輸數據，但我們希望將來使系統無線化。

我們考慮使用穿透性微電極，因為它們可以記錄較小的神經群體，因此可以提供有關神經活動的更多細節。但目前的硬件在臨床應用中不如 ECoG 強大和安全。

另一個考慮因素是，穿透電極通常需要每天重新校準才能將神經信號轉化為清晰的命令，而對神經設備的研究表明，設置速度和性能可靠性是讓人們使用該技術的關鍵。這就是為什么我們在創建長期使用的 “即插即用”系統時優先考慮穩定性的原因。我們進行了一項研究，觀察志愿者的神經信號隨時間的變化，發現如果解碼器使用多個會話和多天的數據模式，它的性能會更好。在機器學習的術語中，我們說解碼器的“權重”被繼承，產生了整合的神經信號。

因為我們的癱瘓志愿者在我們觀察他們的大腦模式時不能說話，所以我們要求我們的第一位志愿者嘗試兩種不同的方法。他首先列出了 50 個對日常生活很方便的單詞，例如“餓”、“口渴”、“請”、“幫助”和“計算機”。在幾個月的 48 次會議中，我們有時要求他想象說出清單上的每個單詞，有時要求他開口嘗試“說出”這些單詞。我們發現嘗試說話會產生更清晰的大腦信號，并且足以訓練解碼算法。然后志愿者可以使用列表中的這些單詞來生成他自己選擇的句子，例如“不，我不口渴”。

我們現在正在努力擴大詞匯量。為了實現這一目標，我們需要繼續改進當前的算法和界面，但我相信這些改進將在未來幾個月和幾年內發生。現在已經建立了原理證明，目標是優化。我們可以專注于讓我們的系統更快、更準確，并且——最重要的是——更安全、更可靠。現在事情應該進展得很快。

如果我們能夠更好地了解我們試圖解碼的大腦系統，以及癱瘓如何改變它們的活動，那么最大的突破可能會到來。我們已經意識到，無法向聲道肌肉發送指令的癱瘓患者的神經模式與能夠發送指令的癲癇患者的神經模式截然不同。我們正在嘗試一項雄心勃勃的 BMI 工程壯舉，同時還有很多關于潛在神經科學的知識需要了解。我們相信，這一切都會匯聚在一起，讓我們的患者交流的能力。

素材來源：

https://spectrum.ieee.org/brain-computer-interface-speech