引言:告别鼠标键盘,解锁未来人机交互的“黑科技”
随着科技的飞速发展,人类与机器的交流方式也在不断革新。最初,我们通过键盘和鼠标与计算机互动,后来触摸屏和语音助手的出现让人与设备的联系变得更加直观和便捷。然而,随着虚拟现实(VR)和增强现实(AR)等新技术的普及,传统的交互方式逐渐显得局限,特别是在动态的场景中,是否可能有一种“超自然”的方式来直接控制设备?
近日,Meta Reality Labs团队在《Nature》发布了题为“A generic non-invasive neuromotor interface for human-computer interaction”的文章,报告了他们的最新研究成果:一种基于深度学习的非侵入式肌电信号通用解码模型。让你无需触摸、无需键盘、无需鼠标,仅凭肌肉的微弱电信号就能实现与计算机的自然互动;这项研究的核心除了利用一种多通道的肌电采集手环外,还有着背后强大的深度学习解码模型,使得这一技术具备了跨人群的普适性,真正实现了“即插即用”的人机交互体验。
图 1. 论文信息
从手势到文字输入,如何实现神经意图的解码?
团队使用了表面肌电信号(sEMG)技术,通过一个佩戴在手腕上的小巧设备,捕捉肌肉发出的电信号,然后通过深度神经网络将这些信号转化为计算机可识别的指令。简而言之,它让你用肌肉信号来“指挥”计算机工作。
这一技术的实现依赖于硬件与算法的创新融合,其中Meta开发的sEMG干电极手腕带发挥了重要作用,这款腕带内嵌16路通道传感器,能够高频率、低噪声地收集手腕、前臂和手部的肌电信号,并通过专门的算法实时解码这些信号,精准还原用户的动作意图。最令人激动的是,Meta的研究团队没有依赖传统的个体校准,而是通过大规模的数据收集系统(招募了超过6000名受试者),通过这些大规模多样化的数据,研究者开发出多个神经网络结构的通用模型,分别用于三类任务:LSTM用于连续控制,卷积+LSTM结构用于手势识别,Conformer结构用于复杂的手写解码。能够适用于不同性别、肤色、手腕大小的用户。换句话说,无论是谁,戴上这款设备后,都能实现流畅的手势识别、光标控制甚至无笔手写输入。
图 2. 用于腕部表面肌电图(sEMG)高通量记录和实时解码的硬件和软件平台
如图2所示,Meta团队的硬件平台为一个基于多通道sEMG干电极腕带的高通量记录和实时解码的硬件和软件平台,它具有48个电极针,这些电极配置为16路双极通道,并且沿着前臂的近远端方向排列。平台能够通过蓝牙无线传输实时采集信号,并将这些肌电信号传输给计算机进行解码。图2a为sEMG数据收集概述。参与者佩戴sEMG腕带,系统提示参与者进行手部和手腕的各种运动。网络摄像头捕捉他们的手部和手腕(不包括面部)。在一天内的两次实验之间,参与者会取下sEMG腕带并稍微调整位置,以便能够在不同的记录位置之间进行泛化。图2b显示了这款sEMG手腕带的硬件配置,并展示了其如何通过高频采样和低噪声处理,捕捉微弱的肌肉电信号。该设备不仅舒适便于佩戴,还可以在一天内的不同实验阶段轻松拆卸并重新调整,以便在多个不同的佩戴位置下保持一致的信号质量。图2c则展示了参与者在三项任务(1D连续控制、离散手势识别和无笔手写输入)中佩戴设备的实验示意图,其中手腕的运动和手势活动通过设备实时记录,结合运动捕捉系统和行为对齐算法精确标定信号时间戳,为后续的深度学习模型训练提供了丰富的标签数据。
图2d和2e展示了在离散手势任务中,通过手腕手指的细微动作(如拇指点击、食指捏合等)产生的肌电信号特征。这些信号的时空活动模式被捕捉并高频率记录,展现了设备在动态解码过程中的稳定性和高效性。
相较传统BCI方法:通用性强,跨用户泛化能力超乎想象!
这项技术的核心之一就是它强大的跨用户泛化能力。传统的肌电解码系统通常需要针对每个用户进行单独的训练和调校,这不仅消耗时间,还限制了系统的普适性。而Meta的这项技术成功解决了这一问题。基于大量跨人群的训练数据,该系统能够自动识别用户的肌肉信号,并准确进行手势解码和文字输入。这意味着,所有人都可以无缝对接,实现高效的人机互动。
在实验中,尽管每个用户的肌肉结构和运动方式都有差异,但模型在从未接触过的用户身上依然能够达到超过90%的手势识别准确率,并且手腕角速度解码误差控制在每秒13度以内。这标志着跨人群的泛化能力,突破了以往肌电接口普遍存在的适配难题(如图3所示)。
图3. 单一参与者和多参与者模型的泛化性能
在实验中,研究者展示了模型在不同用户和不同任务下的解码能力,结果令人惊叹。图3a展示了不同参与者在执行四种离散手势(如拇指滑动、食指捏合等)时的肌电信号差异。每一行代表一种手势的信号,颜色区分了不同的参与者;图3b则使用t-SNE降维方法展示了跨参与者的sEMG激活,每个点代表一个手势实例。可以看到,尽管每个参与者的肌电信号存在差异,模型依然能较好地识别和区分不同的手势;图3c和3d展示了单一参与者模型和跨参与者模型在同一参与者和不同参与者上的泛化能力。结果表明,随着训练数据的增加,单一用户模型的性能逐渐提升,但跨用户泛化能力在数据量增加时仍然有限,这也反映出跨用户解码的挑战;通过增加训练数据的参与人数和模型的参数量,模型的表现得到了显著提升。图3e展示了腕部角度预测任务、图3f展示了手势分类任务,以及图3g展示了手写字符解码任务的解码误差随训练集大小的变化。可以看到,随着参与人数的增多,解码误差随之减少,并且呈现出幂律关系,这表明大数据量和模型规模对解码性能的提升起到了重要作用;具体来说,图3e、3f和3g中的曲线拟合结果表明,在每个任务中,随着参与人数的增加,模型的性能呈现出幂律缩放,并且更大的模型参数量会进一步提升性能。图3e-g黑色和蓝色的标记展示了不同训练集大小和模型规模对错误率和分类准确率的影响。对于离散手势识别和手写输入,数据量的增多使得分类错误率降低到可接受水平,表现出系统在跨人群应用中的潜力。
从实验室到现实:足以替代现有的输入方式
Meta的技术已经不仅仅停留在实验室里,研究团队通过闭环任务测试,让用户在短时间内掌握如何通过肌电信号完成各种操作。图4展示了三种不同的闭环任务,每个任务都验证了肌电信号解码系统在实际应用中的表现。具体包括“
1.连续控制(图4a):用户能够通过手腕控制光标移动,以0.66次/秒的速度完成目标选择;
2.离散手势识别(图4b):手势如拇指滑动、食指捏合等可以0.88次/秒识别;
3.手写输入(图4c):用户通过手腕上的肌肉信号输入20.9词/分钟,几乎接近常见的手机打字速度。
尽管与传统的输入设备(如MacBook触控板和Nintendo Joy-Con游戏控制器)相比,性能还有差距,但其便携性、隐形交互和无需额外设备的优势,足以在许多场景中替代现有的输入方式。
图4. 通用sEMG解码模型能够在不同的交互中实现闭环控制
图4d展示了连续控制任务中光标任务中的目标获取时间,这反映了系统在任务中的响应速度;尽管手腕运动控制光标时,系统的表现略低于使用MacBook触控板的性能,但解码系统在任务中的表现依然优越,并且比标准任务设备提供了更高的便携性和隐形交互优势;图4e则展示了任务中光标提前退出目标的试验结果,该图表明提前退出的问题会随着任务熟练度的提高而逐渐减少;图4f展示了手势任务中的首次检测准确率,结果显示系统识别手势的准确率相当高;图4g则展示了任务中的手势完成率,与使用游戏手柄的结果进行了对比。可以看到,手势完成率随着训练和任务熟练度的提升不断提升,表明系统可以通过更多的数据训练和持续优化达到非常高的准确率;图4i和4j展示了手写解码任务中的两项重要性能指标:字符错误率(CER)和每分钟字数(WPM)。在在线字符错误率(CER)中,系统的表现接近甚至优于传统手写输入设备,而每分钟字数(WPM)的速度也接近开放环路手写速度,说明这一技术在实际文本输入中具有很大的应用潜力。
个性化微调:深度学习揭秘神经生理活动模式
如图5所示,为了进一步优化系统的个性化交互体验,研究人员在通用模型的基础上进行了个性化微调。通过仅使用20分钟的个体数据,手写识别的性能可以平均提高约16.6%。这种“轻量级微调”对识别效果较差的用户尤为有效,能够显著改善他们的使用体验,因此是提升长尾用户体验的一个重要策略。
图5. 通用sEMG手写模型的个性化可提高性能
图5a展示了个性化微调前后,模型在两个不同参与者(左侧和右侧)的手写预测的变化。通过个性化微调,模型的预测准确性显著提高,绿色字体表示正确字符,紫色字体表示错误字符。通过这种微调,CER显著下降,尤其是在高错误率参与者中,表现得尤为显著;
图5b展示了个性化数据量对模型性能的影响。实验结果表明,随着个性化数据量的增加(从1分钟到20分钟不等),字符错误率(CER)显著降低,表明个性化微调可以有效改善模型在实际任务中的表现。图中使用虚线拟合的“幂律关系“显示,数据量的增加与模型性能提升之间存在幂律增长的关系;图5c进一步展示了个性化微调在减少离线CER方面的表现,实验结果表明,个性化微调可大幅度降低CER,尤其在数据量较大时,性能提升尤为显著;
图5d展示了个性化微调对于训练参与者数量和CER降低之间的关系,说明个性化微调可以弥补模型在大规模训练时可能存在的不足,且较少的数据量就能产生显著的性能提升;图5e展示了当每个测试参与者使用20分钟个性化数据微调时,CER的相对减少情况。图中的绿色对角线表示通过个性化微调获得的最佳性能提升;图5f展示了个性化微调后的CER下降与初始模型CER之间的相关性。研究发现,初始错误率较高的参与者,从个性化微调中受益最大,性能提升也更加显著。
更重要的是,研究人员对解码网络的中间层进行了可视化分析,发现该网络能够自动从原始的sEMG信号中学习到具有生理意义的时空模式,且其滤波器响应与真实的MUAP信号高度匹配(如图6)。这种从神经电信号中提取生理特征的能力,为深度学习模型在非侵入式神经接口任务中的成功应用奠定了基础。
图6. 提取和验证推测的单肌纤维动作电位(MUAPs)
图6a-b为诱发推测的MUAPs,实验参与者依照一系列指令执行各种低强度的肌肉收缩,并在每次收缩后进行短暂的休息期。在每个收缩期和休息期内,参与者都能够通过视觉反馈观察其肌电图(EMG)的原始信号,从而帮助他们产生稀疏且空间集中的肌电信号。具体来说,图6a展示了休息时期的EMG信号,而图6b则展示了运动期间的EMG信号。每个运动周期持续10秒,并且每个周期重复3次。图中的灰色垂直标尺表示20μV,用于指示肌电信号的振幅。通过在每个通道的高通滤波EMG信号上进行峰值检测,研究人员能够识别并提取MUAPs。这些MUAPs被用于构建时间序列,进而计算其瞬时发放率,通过事件的间隔时间(ISI)反算。图6c显示了不同运动(如:食指屈曲(IF)、中指屈曲(MF)、小指伸展(PE)、拇指外展(TAb)、拇指伸展(TE)、腕部旋前(WP))的平均瞬时发放率,计算方式为在每个提示的休息或运动周期内,检测到的MUAP数量除以该周期的总时长。图6d展示了每次运动期间发放率的变异系数(CoV),该系数表示肌电信号中事件间隔的标准差与均值之比。通过计算变异系数,研究者能够量化每次运动期间的神经活动的稳定性。
图6e展示了在各个运动周期中提取的多通道MUAP波形。这些波形代表了在运动过程中诱发的单肌纤维动作电位。为方便可视化,所有波形都进行了标准化处理,使得每个MUAP的最大绝对值归一化到99.95百分位。图中细线代表单次MUAP波形,而粗线则是每个运动类别的MUAP波形的中位数,长度为20ms。垂直标尺表示20μV。图6f显示了每个运动的MUAP空间分布,该空间分布是通过每个通道波形的峰-峰值构建的。图中的实线代表均值,而阴影区域表示标准误差。这些空间分布图显示了MUAP信号的空间模式,表明不同运动对应不同的神经活动模式。
这一系列的实验表明,Meta的肌电信号解码系统已经具备了实际应用的能力,能够在复杂的互动任务中,实时、稳定地解码肌电信号,并实现闭环控制。系统不仅能在实验室环境中表现出色,实际应用中也能做到精准、高效,展示了其在虚拟现实、移动计算、智能设备以及辅助技术等多个领域的潜力。
未来展望:无缝连接,超越人类与机器的界限
与以往依赖侵入式设备或特定个体调试的脑机接口相比,本研究首次在非侵入式的肌电接口上实现了出色的跨人群泛化性能,代表着人机交互和脑机接口技术发展的重要突破。因此,这项技术代表了“人类与计算机更直接的连接”这一梦想的实现。未来,我们可能不再依赖鼠标、键盘、触摸屏,甚至语音助手,而是直接通过肌肉信号与计算机互动。在VR/AR设备中,肌电接口将取代现有的手柄控制,实现更加自然的动作捕捉和虚拟交互。对于肢体受限的用户,肌电解码模型将成为无障碍输入的利器,大大提升残疾人士的生活质量。未来的智能手表、眼镜等设备,或许会直接内置这种技术,作为主流的交互方式。这一切的实现,意味着我们将突破人与机器的传统界限,迎接一个充满可能性的未来,在这个未来中,思想与行动的边界将不再存在,一切都能通过最自然的方式与科技对话。
原文链接
Kaifosh, P., Reardon, T.R. & CTRL-labs at Reality Labs. A generic non-invasive neuromotor interface for human-computer interaction. Nature (2025).
https://doi.org/10.1038/s41586-025-09255-w
研究团队介绍
研究团队隶属于Meta的Reality Labs,通讯作者为Thomas Reardon,他是CTRL-labs的首席执行官及联合创始人。在CTRL-labs被收购后,Thomas Reardon目前领导着Meta Reality Labs的神经接口小组。第一作者为Patrick Kaifosh,CTRL-labs的联合创始人,现任Meta Reality Labs的首席科学家。
关于维拓启创
维拓启创(北京)信息技术有限公司成立于2006年,是一家专注于脑科学、康复工程、人因工程、心理学、体育科学等领域的科研解决方案供应商。公司与国内外多所大学、研究机构、企业长期保持合作关系,致力于将优质的产品、先进的技术和服务带给各个领域的科研工作者,为用户提供有竞争力的方案和服务,协助用户的科研工作,持续提升使用体验。
相关产品
