功能性超声成像解码听觉层次
在自然声音场景中,根据声音的平稳性,可以把声音分为背景声音(background sounds)和前景声音(foreground sounds)。背景声音被定义为平稳性最高的声音,其声学统计特性在较长时间尺度上波动,更具可预测性,对提示突发事件的重要性较低。前景声音被定义为平稳性最低的声音,属于动态声音,在较短时间尺度上波动,能随时间传递新信息(如言语或发声)。人类听觉皮层存在背景不变性(即神经元对背景声音的响应不随背景变化而改变的特性)的层级梯度,但跨物种保守性及潜在神经机制尚不明确。
2025年5月,巴黎高等师范学院认知研究系Yves Boubenec 教授团队在eLife上发表了题名为“Hierarchical encoding of natural sounds mixtures in ferret auditory cortex”的研究论文。研究聚焦于两个核心问题:一是背景不变性的层级组织原则是否跨物种保守,即人类听觉皮层中从初级到非初级区域逐渐增强的背景不变性特征,是否在其他哺乳动物(如雪貂)中同样存在;二是驱动这种背景不变性的神经机制是什么,是由低阶声学特征调谐(如频率、频谱时间调制)主导,还是依赖更高阶的神经计算,且这种机制是否在物种间存在差异。研究通过比较雪貂与人类听觉皮层对自然声音混合信号的处理,旨在揭示听觉系统提取有效信号的通用原理与物种特异性机制。

研究亮点
1、首次在雪貂听觉皮层发现背景不变性的层级梯度
与人类类似 —— 初级区域同时反映前景和背景声音的贡献,高阶区域(次级、三级)的背景不变性显著增强,验证了该组织原则的跨物种部分保守性。
2、揭示雪貂的层级结构可通过频谱时间滤波器组模型解释
主要依赖对低阶声学特征(如频率、频谱时间调制)的调谐,为低阶机制驱动背景不变性提供了实证。
3、跨物种对比发现人类的背景不变性无法被频谱时间滤波器组模型完全解释
提示人类非初级听觉皮层可能依赖高阶声学特征或额外神经机制(如语音相关的高阶编码),为理解物种特异性听觉处理差异提供了关键线索。
研究结果
雪貂听觉皮层稳定编码声音特征
研究采用功能性超声成像技术(fUSI)研究雪貂听觉皮层对自然声音流的处理机制。实验设计了三类声音刺激:前景音(非平稳)、背景音(平稳)及其混合音,通过计算声音的时域平稳性进行区分。研究发现,听觉皮层血流动力学响应在初始瞬态反应后能稳定编码声音特征。单独背景音引发的持续响应强度低于前景音和混合音。通过分析响应性体素的活动模式,证实了听觉皮层能够在声音切换后2-4.8秒的时间窗内稳定表征不同声音类别,展现了其对复杂声景的层次化处理能力。
图 1. 血流动力学活动反映对前景音和背景音的编码
(A)前景音(方形)和背景音(菱形)的平稳性。(B)声音呈现范式及示例耳蜗图。我们按照图示设计,将 9.6 秒的前景音片段(冷色)和背景音片段(暖色)连接起来,形成连续的声音流。每个前景音(或背景音)流单独呈现,并与两个不同的背景音(或前景音)流混合呈现。(C)我们使用功能性超声成像技术,在雪貂听觉皮层的冠状切片(蓝色平面)中测量脑血容量(CBV)(黑色轮廓为雪貂听觉皮层)。我们通过连续切片在几天内对整个听觉皮层进行成像。(D)在不同条件下,听觉皮层中与声音变化同步的 CBV 平均变化(以安静基线为基准进行标准化),对所有雪貂的数据进行平均。阴影区域表示不同声音片段的均值标准误。(E)每种条件下的重测交叉相关性。声音两次重复的体素反应在不同滞后下的相关性。然后对所有有反应的体素(ΔCBV > 2.5%)的结果矩阵进行平均。
雪貂听觉皮层中背景音不变性的层次化组织
研究揭示了雪貂听觉皮层对背景音处理的层次化组织特征。
通过fUSI,研究人员发现听觉皮层不同区域对声音混合场景的处理存在显著差异。在初级听觉皮层(MEG),神经元对前景音和背景音的响应差异不大;而在更高级的次级区(dPEG)和三级区(VP),神经元表现出明显的背景音不变性增强现象,即对混合音和单独前景音的响应模式更为相似。特别值得注意的是,这种背景音不变性呈现出明确的层次梯度:三级区VP的表现最优,其次是次级区dPEG,初级区MEG最弱。与此同时,前景音不变性则呈现相反趋势,从初级区到高级区逐渐降低。这种双向变化导致在非初级区,背景音不变性显著高于前景音不变性。这些发现不仅证实了听觉系统层次化处理声音场景的普遍原则,也为理解大脑如何从复杂声学环境中提取关键信息提供了新的神经机制解释。
图 2. 雪貂听觉皮层中对背景音的不变性呈层级组织
(A)一个示例半球(雪貂 L)的平均反应图。反应以相对于安静时期基线活动的 CBV 百分比变化表示。对深度方向的值进行平均,得到听觉皮层的表面视图。(B)重测信度图。在以下各图中,仅显示有可靠反应的体素(至少在一种声音类别中重测信度 > 0.3),图中表面单元的透明度由纳入平均的(可靠)体素数量决定。(C)基于解剖学标志的感兴趣区域(ROIs)图。箭头指示图 D 中所示的示例切片(橙色:初级;绿色:非初级示例)。(D)对单独呈现和混合呈现的前景音的反应。底部:示例体素(左:初级;右:非初级)对混合音和单独呈现的前景音的反应。每个点代表体素对每个前景音(x 轴)和混合音(y 轴)的时间平均反应,取两次重复的平均值。r 表示皮尔逊相关系数值。顶部:图中显示不变性,定义为混合音和单独呈现的前景音之间的噪声校正相关性,示例体素所在切片的值叠加在代表基线 CBV 的解剖学图像上。示例体素用白色方块标记。(E)同一半球的背景不变性图。(F)每个 ROI 的背景不变性量化结果。十字符号(+)表示跨动物的每个 ROI 所有体素的中值。灰色圆点表示每个动物的初级(MEG)和非初级(dPEG + VP)体素的中值。每个圆点的大小与计算中值所依据的体素数量成正比。较粗的线对应示例雪貂 L。***:通过对每个动物体内素的 ROI 标签进行置换检验,比较动物间 ROI 对的平均背景不变性,p <= 0.001。(G-I)与 D-F 相同,但为前景不变性(比较混合音与单独呈现的背景音)。AEG,前外 sylvian 回;MEG,内侧外 sylvian 回;dPEG,背侧后外 sylvian 回;VP,腹侧后听觉区。
听觉处理模型预测层次化差异
研究通过建立频谱时域调制模型,系统揭示了雪貂听觉皮层层次化处理声音场景的神经机制。
模型分析表明,前景音和背景音在时域调制特性上存在本质差异:前景音主导低调制速率(<8Hz),而背景音集中于高速率区(>8Hz)。基于滤波器组模型和交叉验证方法,研究发现不同听觉皮层区域对声学特征的调谐偏好呈现规律性变化:次级区dPEG偏好高频和高频谱调制,三级区VP则偏向低频和中等调制参数。这些调谐差异直接影响了各区域的背景不变性表现——偏好低调制速率的体素表现出更强的背景不变性。值得注意的是,模型不仅能够准确预测单个体素的响应特性(背景不变性预测准确度r=0.65),还完整重现了从初级区到高级区的背景不变性递增梯度(VP>dPEG>MEG)和前景不变性递减梯度。这一发现证实,听觉皮层通过区域特异的频谱时域调谐机制,实现了对复杂声景的层次化解析,其中低阶声学特征调谐差异足以解释雪貂听觉系统的大部分不变性特征。

图 3. 简单的频谱时间调谐解释背景不变性的空间组织
(A)两阶段滤波器组(即频谱时间模型)的呈现。耳蜗图(为示例前景音和背景音所示)通过一组频谱时间调制滤波器进行卷积。(B)在频谱时间调制空间中,前景音和背景音的能量,对所有频率箱进行平均。(C)在完整的声学特征空间(频率时间调制频谱调制)中,前景音和背景音之间的平均能量差异。(D)我们使用从 A 中呈现的频谱时间模型得到的声音特征,通过岭回归预测体素的时间平均反应。因此,对于每个体素,我们获得一组频率和频谱时间调制特征的权重,以及对所有声音的交叉验证预测反应。(E)MEG 的平均模型权重。(F)基于拟合模型的偏好频率、时间和频谱调制图。为计算每个特征的偏好值,我们对权重矩阵在其他两个维度上进行边缘化处理。(G)每个非初级区域(dPEG 和 VP)与初级区域(MEG)体素的权重平均差异。(H)每个 ROI 内调谐至低(<8Hz)或高(>8Hz)时间调制率的体素的背景不变性(左)和前景不变性(右)。***:通过对每个动物体内素的调谐进行置换检验,比较调谐至低速率和高速率的体素在动物间的平均背景不变性,p <= 0.001。
图 4. 听觉处理模型预测雪貂听觉皮层的层级差异
与图 2 相同,但使用来自频谱时间模型的交叉验证预测结果。(A)示例体素(左:初级;右:非初级)对混合音和单独呈现的前景音的预测反应。每个点代表体素对前景音(x 轴)和混合音(y 轴)的预测反应。r 表示皮尔逊相关系数值。上方的图显示示例体素所在切片的预测不变性值,叠加在代表基线 CBV 的解剖学图像上。示例体素用白色方块标记。(B)预测的背景不变性图,定义为对混合音和单独呈现的前景音的预测反应之间的相关性。(C)体素间预测的与测量的背景不变性的分箱散点图。每条线对应一只动物,使用 0.1 个测量不变性箱。(D)每个 ROI 的预测背景不变性。十字符号(+)表示跨动物的每个 ROI 所有体素的中值。灰色圆点表示每个动物的初级(MEG)和非初级(dPEG + VP)体素的中值。每个圆点的大小与计算中值所依据的体素数量成正比。较粗的线对应示例雪貂 L。:p <= 0.05;**:通过对每个动物体内素的 ROI 标签进行置换检验,比较动物间 ROI 对的平均预测背景不变性,p <= 0.001。(E-H)与 A-D 相同,但为预测的前景不变性,即比较对混合音和单独呈现的背景音的预测反应。
背景音不变性的物种差异
通过跨物种比较,揭示了听觉系统处理背景音不变的显著物种差异。
虽然人类和雪貂的听觉皮层都表现出从初级区到非初级区背景音不变性增强、前景音不变性减弱的层次化模式,但其神经机制存在本质区别。在雪貂中,简单的频谱时域调谐特征(如时域调制速率)足以解释大部分不变性差异;而在人类听觉皮层,同样的模型仅能解释约23%的背景音不变性变异,且完全无法预测前景音不变性特征(r=-0.17)。这种显著的模型性能差距表明,人类听觉系统可能进化出了更复杂的高阶处理机制,特别是在非初级皮层区域,这些机制可能涉及对语音、音乐等复杂声学特征的专门化处理。研究结果不仅证实了听觉系统层次化处理的跨物种保守性,更揭示了人类特有的高级听觉认知功能可能依赖于超越简单声学特征分析的神经计算机制,为理解听觉处理的进化提供了重要启示。
图 5. 频谱时间模型难以预测人类的背景不变性
(A)我们使用一个类似实验的数据集(Kell & McDermott, 2019)重复了我们的分析,该数据集测量人类听觉皮层的 fMRI 反应。我们比较了初级和非初级听觉皮层的反应,如 Kell & McDermott(2019)所划分。(B)示例体素(左:初级;右:非初级)对混合音和单独呈现的前景音的反应。每个点代表体素对前景音(x 轴)和混合音(y 轴)的反应,取重复测量的平均值。r 表示皮尔逊相关系数值。(C-D)每个 ROI 的背景不变性量化结果,包括测量的反应(C)和来自频谱时间模型的预测反应(D)。十字符号(+)表示跨被试的每个 ROI 所有体素的中值。灰色圆点表示每个 ROI 和每个被试的中值。每个圆点的大小与计算中值所依据的(可靠)体素数量成正比。(E)体素间预测的与测量的背景不变性的分箱散点图。每条线对应一名被试,使用 0.1 个测量不变性箱。(F-I)与 B-E 相同,但为前景不变性,即比较对混合音和单独呈现的背景音的预测反应。
研究总结
该研究通过功能超声成像(fUSI)技术,揭示了雪貂听觉皮层对自然声音混合的分层编码机制:从初级到高阶区域,背景不变性逐渐增强。研究发现,这种分层结构可通过低频声学特征调谐解释,但在人类听觉皮层中需依赖更高阶机制。这一成果不仅证实了跨物种听觉处理的保守性原则,还揭示了人类听觉系统的独特性,为理解复杂声景中的声音分离提供了重要线索,对听觉神经科学和跨物种比较研究具有深远意义。
参考文献
Landemard Agnès, Bimbard Célian, Boubenec Yves (2025) Hierarchical encoding of natural sounds mixtures in ferret auditory cortex. eLife 14:RP106628. https://doi.org/10.7554/eLife.106628.1
想要获取本篇文献的老师同学们,可以拉到文末扫码添加礼智小客服哦!