通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。
大脑活动能够解码成语音了。
说话似乎是一项毫不费力的活动,但它其实是人类最复杂的动作之一。说话需要精确、动态地协调声道发音器官结构中的肌肉——嘴唇、舌头、喉部和下颌。当由于中风、肌萎缩侧索硬化症或其他神经系统疾病而导致言语中断时,丧失说话能力可能是毁灭性的。
来自加州大学旧金山分校的科学家创造了更接近能够恢复说话功能的脑机接口(brain–computer interface,BCI)。
脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,这项技术目前能够使瘫痪的人每分钟最多能打出8个单词,而加州大学旧金山分享的研究人员开发了一种方法,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平!
这项研究发表在最新一期《自然》杂志上,作者为Anumanchipalli以及华裔科学家Edward Chang等人。
ECoG电极阵列由记录大脑活动的颅内电极组成
此次招募的五名志愿者同意测试虚拟语音发生器。每个患者都植入了一两个电极阵列:图章大小的、包含几百个微电极的小垫,放置在大脑表面。
实验要求参与者背诵几百个句子,电极会记录运动皮层中神经元的放电模式。研究人员将这些模式与患者在自然说话时嘴唇,舌头,喉部和下颌的微小运动联系起来。然后将这些动作翻译成口语化的句子。
图1:语音合成的脑机接口
在上图A中,以前的语音合成研究采用的方法是使用脑电图(ECoG)设备监测大脑语音相关区域的神经信号,并尝试将这些信号直接解码合成语音,使用一种称为递归神经网络(RNN)的人工神经网络;
上图B中,Anumanchipalli等人开发了一种不同的方法,RNN被用于两阶段解码。其中一个解码步骤是将神经信号转换成声道发声器官(红色)的预估运动,涉及到语音生成的解剖结构(嘴唇、舌头、喉部和下颌)。为了在第一个解码步骤中进行训练,作者需要每个人的声道运动与他们的神经活动关联起来的数据。
因为无法直接测量每个人的声道运动,Anumanchipalli等人构建了一个RNN来预估这些运动,其训练数据是之前收集的大量声道运动数据和语音录音。
这个RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的动作转换成合成语音。Anumanchipalli和他的同事的两步解码方法产生的口语句子的失真率明显低于直接解码方法获得的句子。
基于神经解码的无声模仿语音合成
值得注意的是,在首次对脑机接口进行概念验证研究以控制健康动物的手臂和手的运动之后,人们对这种脑机接口在瘫痪患者身上的适用性提出了类似的问题。随后的临床试验令人信服地证明,使用脑机接口,人类可以快速交流、控制机械臂、恢复瘫痪肢体的感觉和运动等。
最后,这些令人信服的概念验证证明了不能说话的个体也能实现语音合成,结合脑机接口在上肢瘫痪患者中的快速进展,研究人员认为应该大力考虑涉及言语障碍患者的临床研究。
随着持续的进步,希望更多有语言障碍的人能够重新获得自由表达思想的能力,并重新与周围的世界联系起来。
华裔科学家解码,马斯克脑机接口公司也会有新动作
Nature这篇文章的作者之一是加州大学旧金山分校神经外科教授Edward Chang博士。
研究人员将他们的系统称为“缝纫机”(sewing machine),科学家在实验室中移除一块老鼠的头骨并插入一根针头,将柔性电极送入老鼠的脑组织。
本周三,当Twitter用户询问Neurink的进展时,马斯克说,“可能会在几个月内宣布一些值得注意的事情。”
马斯克认为,脑机接口技术能在2021年之前治疗严重的脑损伤。此外,科学可以通过脑机接口扩大人类的能力。他举了一个例子:人们可以通过心灵感应来传达复杂的概念,“你不需要用语言表达”。
人类是否有一天会与机器合并?马斯克认为,人类已经在某种程度上做到了这一点,因为智能手机等近乎无所不在的技术,因此脑机接口这项工作应该继续下去。
这可能会导致科幻未来,因为人们可以在脑海中下载外语,你觉得呢?