文章

脑卒中肌电手势识别的深度学习方案,从特征构建到网络设计的完整探索

2025-11-11     来源:本站     点击次数:189

脑卒中肌电手势识别的深度学习方案,从特征构建到网络设计的完整探索

引言/背景介绍
卒中是全球主要致残原因之一,约60%的卒中患者存在上肢功能障碍,严重影响日常生活与独立性。传统康复训练往往依赖治疗师一对一指导,过程耗时耗力,在人口老龄化社会更显得供需矛盾突出。近年来,机器人辅助康复成为一种新兴方案。其中,按需辅助(Assist-as-Needed, AAN)模式尤为关键:当患者主动尝试动作时,康复机器人提供必要帮助,这种模式更能促进神经可塑性和康复效果。但要实现精准的按需辅助,机器人必须能“读懂”患者的动作意图。表面肌电(sEMG)信号因其无创、实时、信息丰富的特点,被认为是最有潜力的人机交互信号源。然而,卒中患者的sEMG信号存在变异性大、噪声高等问题,如何准确识别其手势意图成为难点。

论文概要
近日,康复大学周平教授团队,利用深度学习技术系统探索了卒中后手势识别的可行性与关键影响因素。研究成果发表于IEEE Transactions on Neural Systems and Rehabilitation Engineering,题为《Deep Learning-Based Post-Stroke Myoelectric Gesture Recognition: From Feature Construction to Network Design》。该研究通过采集8名慢性卒中患者在执行6种手部动作时的sEMG信号,比较了不同特征域(时域、频域、小波域)、数据结构(一维与二维图像)和网络架构(CNN、CNN-LSTM、CNN-LSTM-Attention)对手势识别准确率的影响。结果发现,在所有组合中,频域特征表现最为突出:被试内实验中,CNN-LSTM结合二维频域特征可获得72.95%的平均准确率;跨被试迁移学习中,CNN-LSTM-Attention结合一维频域特征表现最佳,平均准确率达到68.38%。此外,研究团队还引入模型投票与贝叶斯融合两种后处理策略,进一步提升了识别稳定性,其中模型投票平均提高了2.03%。这一工作不仅揭示了卒中患者在手势识别中的最佳特征选择与模型配置,还展示了深度学习结合频域sEMG在康复机器人、家庭康复及智能监测中的广阔应用前景。
 

图1. 论文信息
 
研究方法 
本研究共纳入8名慢性卒中患者(5男3女),其上肢运动功能受损程度涵盖轻度至重度,依据Fugl-Meyer 上肢评估(FMA)进行分级,详情见表I。实验任务为完成6种手部动作:手掌开合(HO、HC);拇食中三指开/合(TIMO/TIMC);中、无名、小三指开/合(MRLO/MRLC)。在动作执行过程中,研究人员使用外骨骼手协助患者完成指定动作,同时通过高密度表面肌电系统采集前臂7块肌肉(包括指浅屈肌、指伸肌、拇长外展肌等)的sEMG信号(图2)。
 

表1. 卒中受试者详细信息
 

 图2. 卒中患者数据采集实验装置
 
采样频率设定为1000Hz,信号经20–450Hz带通滤波处理。对滤波后的7通道sEMG信号进行滑窗分割,窗长为102ms,步长51 ms,以构建一维与二维的数据结构,一维sEMG图像的数据结构为N×101×1×7,二维sEMG图像的数据结构为N×101×7×1,其中N为样本总数(图3左)。肌电信号特征采用时域、频域及小波域肌电图像(图3右),用于后续深度学习建模(图4)。最后在网络架构上设计了三类模型,包括卷积神经网络(CNN)、结合时间序列建模的CNN-LSTM,以及进一步加入注意力机制的CNN-LSTM-Attention。通过数据维度、信号特征和网络架构对这三方面因素的排列组合,共构建了18种深度学习模型(M1-M18),结合模型投票和贝叶斯融合两种后处理方法(M19、M20)对频域模型的输出进行二次优化,并在被试内测试与跨被试迁移学习两类实验场景下进行验证,18种深度学习模型如表II所示。
 

高密度肌电设备示例
 

图3. 左图为1D和2D sEMG频域图像的可视化;右图为对手开(HC)合(HO)运动在时、频和小波域的2D sEMG图像进行可视化
 

图4. 基于sEMG的脑卒中后手势识别中DL技术的研究框架
 

表2. 18个不同网络结构、数据维度和特征域的深度学习模型详细信息
结果呈现
实验结果显示,不同特征域、数据结构与网络架构在识别性能上存在显著差异。在被试内实验中(图5),二维频域特征结合CNN-LSTM模型(对应M11)表现最佳(图5d),平均识别准确率达到72.95%,部分患者的最高结果超过85%(图5b)。相比之下,单纯采用时域或小波域特征的模型准确率显著降低,多数不足65%,且差异具有统计学意义(P < 0.01)。这一结果表明,频域特征能够更稳定地刻画卒中患者残余肌肉信号中的可区分信息,而CNN-LSTM的时序建模优势,则帮助系统更好地识别动作过程中的动态变化。在跨被试迁移学习中(图6a),结合一维频域特征的CNN-LSTM-Attention 模型(对应M14)表现最优,平均准确率为68.38%。进一步的实验分析发现,随着迁移率的增加(10%、20%、30%),模型识别率逐步提升,说明少量个性化训练样本即可显著改善跨人群的自适应性(图7)。例如,在迁移率为10%时,准确率可提升6–8个百分点;而在30%时,提升幅度趋于平缓,提示模型已经捕捉到患者间共享的频域特征结构。
 
图5. 被试内测试的手势识别结果。(a)展示了18个DL模型在不同被试之间的被试内测试中的表现;(b)表示DL模型在每个受试者中的平均准确率;(c)显示了DL模型在每个受试者中的最大测试精度;(d)比较所有被试在每个DL模型中的平均正确率;(e)比较了18个深度学习模型在网络结构、数据维度、特征域上的平均准确率和显著性水平
 
 
图6. 被试间迁移学习的手势识别结果。(a) DL模型中剩余7名被试进行被试间迁移学习的平均正确率。(b)比较了18个迁移学习模型在网络结构、数据维度、特征域上的平均准确率和显著性水平
 
图7. 不同迁移率的测试准确率(图(a)-(h)是基于S1-S8为轮循数据集时,以其余受试者为测试集,所有模型在不同迁移率下的平均测试准确率的比较,图中红色虚线为其余7名受试者的总平均准确率
 

图8. 深度学习模型在有/没有后处理的被试间迁移学习实验中的平均正确率
上述现象在神经肌肉机制层面上具有明确解释。卒中患者的运动神经通路受损,导致部分肌肉群失去精细化控制,动作信号表现为幅度减弱、时序紊乱和空间分布不均。频域特征能够捕捉肌肉残余激活信号中的谱能量分布模式,从而放大不同手势之间的差异;而LSTM及注意力机制则进一步利用时间依赖和特征选择,帮助模型识别动作中的关键信息。相比之下,单纯依赖时域特征的模型在噪声和个体差异干扰下更容易失效。

总结与讨论:让卒中康复走向智能化与个性化
随着人工智能与康复医学的不断融合,基于肌电信号的卒中手势识别正逐渐从实验室走向临床与家庭。本研究通过对特征域、数据结构和网络设计的系统探索,验证了频域特征结合深度学习模型在卒中后肌电解码中的突出优势,并展示了CNN-LSTM及注意力机制在捕捉残余神经信号方面的巨大潜力。与此同时,模型投票等后处理策略进一步提升了识别的稳定性与鲁棒性,为未来智能康复系统的实际应用奠定了坚实基础。从更广阔的视角来看,这一研究不仅仅是对算法性能的比较,更为康复机器人、远程健康监测与家庭训练系统提供了技术路线。未来,随着深度学习模型的进一步优化以及个性化迁移学习策略的完善,系统有望实现“少量数据快速自适应”,让患者在医院、家庭乃至社区环境中都能享受到精准的康复辅助。

原文链接
Bao T, Lu Z, Zhou P. Deep Learning Based Post-stroke Myoelectric Gesture Recognition: From Feature Construction to Network Design[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2024.
DOI: 10.1109/TNSRE.2024.3521583

作者及单位
本文作者为鲍天哲、路知远和周平教授,均来自康复大学(中国青岛)。

关于维拓启创
维拓启创(北京)信息技术有限公司成立于2006年,是一家专注于脑科学、康复工程、人因工程、心理学、体育科学等领域的科研解决方案供应商。公司与国内外多所大学、研究机构、企业长期保持合作关系,致力于将优质的产品、先进的技术和服务带给各个领域的科研工作者,为用户提供有竞争力的方案和服务,协助用户的科研工作,持续提升使用体验。

相关产品

 
相关文章 更多 >