文章

从个体到群体:脑信号众包让情感分类性能持续提升的研究

2025-11-07     来源:本站     点击次数:287

从个体到群体:脑信号众包让情感分类性能持续提升

引言/背景介绍
情感维度被认为是用户体验不可或缺的一部分。基于媒体内容引发的情绪对其进行标签标注,是个性化内容推荐、有害信息规避等下游任务的核心支撑。理解建模和个性化这种体验的一个关键方面是计算系统推断数字信息可能引起的情感状态的能力,并通过情感注释将其与内容联系起来。情感注释的解决方案主要依靠手动注释和基于内容分析,用户可以标记他们的情感体验。然而此方法仅适用于小场景(如社交媒体内个性化标注),用户需主动交互,无法大规模扩展;且过分依赖文本 NLP 或图像计算机视觉提取特征,仅关注内容本身,忽略人类对同一内容的差异化情感反应。

来自芬兰赫尔辛基大学Tuukka Ruotsalo团队在《IEEE Transactions on Affective Computing》发表了题为“Crowdsourcing Affective Annotations Via fNIRS-BCI”的研究性文章,本研究提出了一种通过在体验时监控人类情感来隐含地获得情感反应的方法(fNIRS-BCI 众包情感标注方法)。通过功能性近红外光谱(fNIRS)监测群体脑信号,被动获取自然情感反应,聚合多用户 “噪声信号” 形成共识标注。
 
 
文章信息
研究方法
被试
31 名志愿者(本科生 / 研究生),排除 4 名数据波动异常者(仍纳入机器学习分析);平均年龄31.4 岁(21-52 岁,SD=7.76);性别分布:15 男、11 女、5 非二元性别;视力正常 / 矫正正常,无精神疾病(无诊断、未服药)。

实验方法
刺激从国际情感图片系统(IAPS)中取样,按“效价(低 / 高)× 唤醒度(低 / 高)”分为 4 类:低效价 - 低唤醒度(LVLA)、低效价 - 高效价(LVHA)、高效价 - 低唤醒度(HVLA)、高效价 - 高唤醒度(HVHA)如图1所示,从每个象限,参与者观看随机选择的10张单独的图像。

使用Artinis Brite-24 fNIRS装置记录光密度数据,采集频率为50HZ(如图2)。参与者阅读知情同意书并佩戴 fNIRS 设备,获得了1分钟的静息状态测量。正式实验包含2个区块,每区块 20个试次,总试次 40次,每个试次都通过指导用户仔细查看随后呈现的图像并自由地与其内容相关联来开始。每个试次流程如下:
(1)指令:提示参与者仔细观看图像并自由联想;
(2)基线:注视屏幕中央十字4秒(用于数据基线校正);
(3)刺激:呈现 14 秒实验图像;
(4)间隔:至少 0.1 秒的空白试次间间隔期内,将该试次的特定信息与生物信号数据进行同步
整个实验大约需要45分钟才能完成。
 
 
图1. 位于效价和唤醒量表上的四个类别中刺激样本的分布和示例。蓝色为低价高唤醒(LVHA),绿色为高价高唤醒(HVHA),橙色为低价低唤醒(LVLA),红色为高价低唤醒(HVLA)。示例图像下面是它们的标签和众包图像特定分类精度,N=8
 
 
图2.  fNIRS通道和二极管放置。该分析仅使用了用灰色圆圈突出显示的通道,这些区域分为前部(A)和后部(P)额叶区域,并且每个半球通道分为外侧(L)、中央(C)和内侧(M)

数据准备
使用Artinis Brite-24 fNIRS装置记录光密度数据,采集频率为50HZ(如图2),首先采集1分钟的静息状态。正式实验包含2个区块,每区块 20个试次,总试次 40次,每个试次都通过指导用户仔细查看随后呈现的图像并自由地与其内容相关联来开始。对预处理后的HbO信号进行特征提取,将 12 秒刺激后 HbO 信号划分为 3 个不重叠窗口,计算每个窗口的均值,最终每个 epoch 生成 72 维特征(24 通道 ×3 窗口)。

个体模型训练
众包模型的基础是个体情感预测模型,需确保每个参与者的脑信号能有效映射到情感类别。实验采用带收缩正则化的线性判别分析(SLDA)模型,设置5类分类任务(直接分类/效价任务/唤醒度任务/高效唤醒度效价任务/低效唤醒度效价任务)对模型进行训练,采用分层 k 折交叉验证,构建每个参与者的模型对每个 epoch 输出类别概率分布。

众包聚合策略设计
众包模型的核心在于通过合理聚合个体预测降低噪声,提升整体精度。其步骤如下:
(1) 数据筛选:剔除有效参与者数 < 8 的图片,最终保留 98 张图片(平均每图 11 个参与者数据),确保众包聚合有足够样本支撑;
(2) 聚合逻辑:模拟 “逐步增加人群规模” 的过程,验证人群大小对预测精度的影响,人群规模 N 取值 1-8;对每张图片,从其对应的参与者池中放回抽样,逐步增加参与者数量(从N=1迭代至8);采用软投票,即对每个类别,计算当前人群中所有参与者预测概率的均值,选择均值最大的类别作为众包预测结果。
(3) 稳定性验证:每张图片重复上述抽样 - 聚合过程 100 次,生成 100 组不同人群组合的预测结果,避免单次抽样的随机性干扰,最终获得 98×100×8 组众包预测数据(图片数 × 重复次数 × 人群规模)。

性能验证
通过统计分析验证众包模型的预测性能及人群规模的影响。构建随机模型,将情感标签随机置换后训练 SLDA 模型,作为性能基准。使用分类准确率、F1分数和统计显著性对模型的性能进行验证。

主要结果
神经成像效应(fNIRS 信号与情感的关联)
该研究神经成像效应分析采用重复测量方差分析,以效价、唤醒度、半球及额叶区域为自变量,氧合血红蛋白(HbO)和去氧血红蛋白(HbR)浓度变化为因变量。图 3 结果显示:
HbO 信号核心效应:效价主效应显著,低效价(低愉悦度)条件下 HbO 反应更负(F (1,26)=8.88,p=0.006);同时存在两个显著交互效应 ——“效价 × 半球 × 额叶区域” 及 “效价 × 额叶区域 × 唤醒度”,其中高唤醒度条件下,额叶前部的低效价与高效价反应差异更为突出。

HbR 信号核心效应:仅 “效价 × 半球 × 额叶区域” 交互效应显著,表现为左额叶后部区域在低效价条件下 HbR 浓度升高更显著(即 “反应更积极”)。
探索性分析结果:HbO 信号在左内侧后额叶和右前外侧额叶的情感反应最为明显;效价对脑活动的调控作用强于唤醒度,且该差异主要体现在高唤醒度刺激条件下。

 
 
图3. 情感刺激下fNIRS氧合血红蛋白(HbO)反应。从上到下4行分别为:唤醒度效应:高唤醒度刺激与低唤醒度刺激的对比(HA-LA);效价效应:高效价刺激与低效价刺激的对比(HV-LV);高唤醒度条件下的效价效应:高唤醒度 - 高效价刺激与高唤醒度 - 低效价刺激的对比(HVHA-LVHA);低唤醒度条件下的效价效应:低唤醒度 - 高效价刺激与低唤醒度 - 低效价刺激的对比(HVLA-LVLA)

分类性能
个体模型性能(图4):各任务平均准确率如下:4 类情感分类(LVLA/LVHA/HVLA/HVHA)为 0.40±0.02;二分类任务:效价分类(低/高)为 0.59±0.01,唤醒度分类(低/高)为 0.56±0.02;条件性分类任务:高唤醒度效价分类为 0.67±0.02,低唤醒度效价分类为 0.57±0.02。
经 100 次置换检验验证,所有任务的个体模型准确率均显著高于随机模型(p=0.01),表明单参与者的 fNIRS 脑信号可有效解码情感维度。
 
 
图4. 4类预测任务中每个参与者的模型精度

众包模型性能
该研究众包模型以带收缩正则化的线性判别分析(SLDA)为基础,对 98 张 IAPS 图像,通过带放回抽样构建 N=1-8 人群体,软投票聚合预测(每图重复 100 次)。结果显示:所有任务准确率随 N 增加显著线性提升(β_N 均正,p<0.01),N=8 时最优,4 类分类 0.48、效价 0.67、唤醒度 0.63、高唤醒度效价 0.78、低唤醒度效价 0.63,F11趋势一致;高唤醒度效价分类最优,LVHA 类图像准确率 0.62,高唤醒度图像准确率显著高于低唤醒度(Mann-Whitney U=1515.5,p<0.05)。100 次置换检验表明模型准确率显著高于随机(p=0.01),Wilcoxon 检验显示群体规模差异越大性能差异越显著,众包可抵消个体噪声,提升标注可靠性(图5、图6和表1)。

注1: F1 分数是兼顾精确率(Precision) 和召回率(Recall) 的综合评价指标,取值范围为 0-1,分数越接近 1 表示模型分类性能越优。精确率:模型预测为某类的结果中,实际属于该类的比例(避免 “误判”);召回率:实际属于某类的样本中,被模型成功预测为该类的比例(避免 “漏判”)
 
 
图5. 左上:作为人群规模函数的完整4类(低/高效价、低/高唤醒)的分类准确性。右上:具有不同人群规模的模型之间差异的统计显著性(Benjamini-Hochberg调整)。中间行:高/低效价(左)和高/低唤醒(右)的分类精度。下图:低唤醒效价(左)和高唤醒效价(右)的分类准确度。所有结果都显示准确性是人群规模的函数。橙色线显示了用随机排列的标签训练的控制模型性能。误差线表示准确度分数的标准偏差
 
 
图6. 增加人群规模的效价分类中目标标签的众包预测分布(左上N=1,右上N=2,左下N=4,右下N=8)。预测概率随着人群规模的增加而收敛
 
 
表1. 每项任务不同N的准确性和F1分数。所有预测任务的数据集几乎是平衡的

在该研究的众包情感分类实验中,不同情感类别与图像内容的分类准确率呈现出显著差异。从类别差异来看,低效能 - 高唤醒度(LVHA)类图像(如血腥、伤害类图像)的平均分类准确率最高,达到 0.62,这一数值显著高于其他三类图像,其中高效能 - 高唤醒度(HVHA)类与低效能 - 低唤醒度(LVLA)类图像准确率均为 0.45,高效能 - 低唤醒度(HVLA)类图像准确率最低,仅为 0.38;进一步对比唤醒度维度发现,高唤醒度图像整体准确率(0.62)显著高于低唤醒度图像。从内容差异来看,图像标签与分类准确率密切相关,标签指向明确且能引发强烈情绪反应的图像,如标注为 “血腥”(准确率 0.72)、“伤害”(准确率 0.68)以及 “暴力威胁”(准确率 0.55-0.56)的图像,分类准确率普遍较高;而标签含义模糊、难以明确界定情感倾向的图像(如 “和平”,准确率 0.22),或标签所对应内容可能横跨多个情感类别的图像(如 “动物”,准确率 0.33),分类准确率则明显偏低。

结论与展望
本研究首次验证了功能性近红外光谱脑机接口(fNIRS-BCI)在众包场景下用于情感标注的可行性,额叶 fNIRS 信号能有效携带情感信息(如效价与左内侧后叶、右额外侧叶活动相关),无需用户额外身心交互,即可通过监测自然情感反应解码图像的效价与唤醒度维度。众包模型分类性能随参与者数量增加显著线性提升,群体规模越小提升越明显,仅需 8 名参与者即可实现较优效果 —4 类情感分类准确率达 0.48(随机基准 0.25),高唤醒度效价分类准确率达 0.78(随机基准 0.5),且预测概率分布随群体规模扩大趋于稳定,证明众包可有效抵消个体脑信号噪声。未来可以对硬件进行优化,探索更少发射器 - 接收器的 fNIRS 设备,降低成本与使用门槛;尝试表示学习、对比学习与数据增强,提升情感信号区分度;构建跨参与者统一模型,减少个体模型训练成本。在真实场景(如网页浏览、视频观看)中采集数据,验证方法实用性;使用更贴近日常的刺激材料(如新闻图像、短视频)。

原文信息链接
Ruotsalo T, Mäkelä K, Spapé M. Crowdsourcing Affective Annotations Via fNIRS-BCI[J]. IEEE Transactions on Affective Computing, 2024, 15(1): 297-308.
DOI:10.1109/TAFFC.2023.3273916

作者及单位介绍
该文章的作者为Tuukka Ruotsalo、Kalle Mäkelä和Michiel Spapé。其中,Tuukka Ruotsalo就职于赫尔辛基大学计算机科学系,Kalle Mäkelä就职于赫尔辛基大学,Michiel Spapé就职于芬兰赫尔辛基大学心理学和言语治疗系。
 
关于维拓启创
维拓启创(北京)信息技术有限公司成立于2006年,是一家专注于脑科学、康复工程、人因工程、心理学、体育科学等领域的科研解决方案供应商。公司与国内外多所大学、研究机构、企业长期保持合作关系,致力于将优质的产品、先进的技术和服务带给各个领域的科研工作者,为用户提供有竞争力的方案和服务,协助用户的科研工作,持续提升使用体验。

相关产品

 
相关文章 更多 >