BCI-T：利用非线性解码模型从人类听觉皮层的活动中重构音乐

以下文章来源于脑机接口社区，作者社区创作者

音乐是人类体验的核心，但音乐感知背后的精确神经动力学仍然未知。本研究分析了29名患者的独特颅内脑电图(iEEG)数据集，这些患者听了Pink Floyd的歌曲，并应用了先前在语音领域使用的刺激重建方法。本研究成功地从直接神经录音中重建了可识别的歌曲，并量化了不同因素对解码精度的影响。结合编码和解码分析，本研究发现大脑右半部分主导音乐感知，颞上回(STG)起主要作用，证明了一个新的颞上回亚区适应音乐节奏，并定义了一个对音乐元素表现出持续和开始反应的前后侧STG组织。本研究结果表明，在单个患者获得的短数据集上应用预测建模是可行的，为在脑机接口(BCI)应用程序中添加音乐元素铺平了道路。

方法与实验

本次实验共29例耐药癫痫患者参与研究(女性15例；年龄16 ~ 60岁，平均33.4岁，全量表智商范围为74 ~ 122)。所有患者均通过手术植入颅内栅格或电极条(ECoG)来定位癫痫病灶，电极定位完全由临床指导。所有患者均自称听力正常，并被要求全神贯注地听着Pink Floyd的歌曲《Another Brick in the Wall》(第一部分)。总歌曲持续时间为190.72秒(波形如图1A所示)。听觉刺激频率为44.1 kHz，并通过入耳式监听耳机(带宽12 Hz至23.5 kHz，与周围噪声隔离20 dB)在每个患者调节的舒适声级(50至60 dB SL)下传递。

为了研究听觉刺激的声学效果与ECoG记录的神经活动之间的关系，使用NSL MATLAB Toolbox将歌曲波形转换为仅振幅的听觉谱图。所得到的听觉频谱图有128个频率段，从180到7246 Hz，特征频率沿对数频率轴均匀分布，采样率为100 Hz。为了减少计算负荷和特征的数量，输出了一个从188到6745 Hz的32个频仓的简化谱图(图1A，底部)。

本研究使用基于回归的解码模型，根据记录的神经活动重建经典摇滚歌曲的听觉谱图，量化了3个因素对解码准确性的影响，并通过编码模型和损伤分析研究了音乐感知的神经动力学和区域。

结果

歌曲响应电极的分布

为了识别编码歌曲声学信息的电极，本研究为数据集中所有2379个电极拟合了光谱颞感受野(STRF)，评估了在这些位置记录的HFA可以从歌曲的听觉谱图中线性预测的程度(图1)。从密集的、双侧的、主要是额颞覆盖(图2A)中，确定了347个具有显著STRF的电极(图2B)。研究发现大脑右半球有更高比例的对歌曲有反应的电极。在左半球的1479个电极中有199个有意义，在右半球的900个电极中有148个有意义(图2B)。347个显著电极中的大多数(87%)集中在3个区域：68%在双侧颞上回(STG)，14.4%在双侧感觉运动皮层(SMCs，位于中央前和后回)，4.6%在双侧IFG(图2C)。STRF预测精度分析发现偏侧性是主要影响因素(图2D)，右半球的相关系数高于左半球。

▲图1. 协议，数据准备和编码模型拟合。(A)顶部:整个歌曲刺激的波形。下:歌曲的听觉谱图。顶部的橙色条代表歌曲中有人声的部分。(B) x线显示1例代表性患者的电极覆盖。每个点是一个电极，突出显示的4个电极发出的信号如图(C)所示。(C)歌曲刺激在4个代表性电极中引发的HFA。(D)放大10秒(A和C中的黑色条)的听觉谱图和代表性电极中引发的神经活动。这里使用的线性编码模型包括通过找到最佳截距(a)和系数(w)，从听觉谱图(X)预测神经活动(y)。(E) (B)、(C)和(D)中红色显示的电极的STRF。STRF系数为z值，在前面的方程中表示为w。

▲图2. 歌曲反应电极的解剖位置。(A) MNI模板显示的所有29例患者的电极覆盖率(N = 2,379)。所有呈现的电极都没有任何人工或癫痫活动。(B)电极位置显著编码歌曲的声学(Nsig = 347)。显著性是由超过250个训练、验证和测试集样本的STRF预测精度确定的。标记颜色表示使用FreeSurfer图谱确定的解剖标记，标记大小表示STRF的预测精度。(C)每个解剖区域的重要电极数。深色表示右半球的位置。(D)每个解剖区域的平均STRF预测精度。先前标记为上边缘，其他颞叶(即STG以外)和其他额叶(即SMC或IFG以外)的电极被合并在一起，标记为其他并以白色/灰色表示。HFA:高频活动；IFG，额下回；蒙特利尔神经学研究所；SEM，均值的标准误差；感觉运动皮层；STG，颞上回；光谱时间接受野。

影响译码精度的歌曲重构与方法因素

本研究通过拟合线性解码模型，对电极子集进行了自举分析，揭示了解码模型中用作预测器的电极数量与预测精度之间的对数关系(图3A)。使用bootstrap分析观察到数据集持续时间和预测精度之间存在类似的对数关系(图3B)。对于模型类型，与MLP更高的有效r平方相一致，解码的光谱图揭示了模型类型之间的差异，非线性重建(图3C，底部)相对于线性重建(图3C，中间)显示了更精细的光谱时间细节。总体而言，线性重建在前景元素(人声音节和吉他主音)的存在下听起来充满了强烈的节奏线索，但节奏感有限的吉他模式。与线性重建相比，非线性重建提供了可识别的歌曲，具有更丰富的细节。对音高、音色等谱元素的感知质量得到显著提高，音素同一性明显。使用非线性模型从患者P29的61个重要电极中重建歌曲(图3D)。这些模型的表现优于基于所有患者电极的线性重建，但解码精度低于来自所有患者的347个显著电极的解码精度。在感知方面，这些基于单个患者的模型提供了足够高的光谱时间细节来识别歌曲。

▲图3. 歌曲重构与方法论思考。(A)预测精度作为线性解码模型中作为预测器的电极数的函数。在y轴上，100%表示使用所有347个重要电极获得的最大解码精度。黑色曲线显示了从每个电极数量的100个样本的自举分析中获得的数据点，而红色曲线显示了两项幂级数拟合线。(B)预测精度作为数据集持续时间的函数。(C)原始歌曲(上)和使用线性(中)或非线性模型(下)从所有响应电极解码的重建歌曲的听觉谱图。(D)仅使用患者P29电极的非线性模型重建歌曲的听觉谱图。

然后，本研究通过将原始歌曲与解码歌曲谱图的摘录相关联来量化解码歌曲的可识别性。线性(图4A)和非线性(图4B)重建都提供了很高的正确率(分别为32/38和36/38)；图4，左面板)和显著识别平均百分位数(分别为95.2%和96.3%；图4，右侧面板)。

▲图4. 歌曲节选识别等级分析。在通过12个不同的15秒测试集解码整首歌曲后，将原始歌曲和解码谱图分成5秒的片段，并计算所有可能的原始解码对的相关系数。(A)使用线性模型解码。左面板显示相关矩阵，红点表示逐行最大值。右面板显示了摘录识别等级的直方图，衡量原始解码的最大相关系数与真实摘录识别的接近程度。灰色阴影区域表示通过1,000个原始歌曲摘录身份的随机排列估计的零分布的95%置信区间。红色竖线显示了所有歌曲节选的平均识别等级。(B)使用非线性模型解码的相同面板。

音乐元素的编码

本研究分析了所有347个重要电极的STRF系数，以评估不同的音乐元素是如何在不同的大脑区域编码的。该分析揭示了各种光谱时间调谐模式(图5A)。为了充分表征音乐谱图与神经活动之间的关系，对所有重要的strf进行了独立分量分析(ICA)。确定了具有不同光谱时间调谐模式的3个分量，每个分量解释5%以上的方差，共同解释52.5%的方差(图5B)。

▲图5. STRF调谐模式分析。(A)有代表性的一组10个STRF (在347个重要STRF中)，在MNI模板上的位置使用匹配标记。颜色代码与图1中使用的颜色代码相同。(B)三个ICA分量各解释了所有347个显著strf的5%以上方差。(C)这三个分量的ICA系数，绘制在MNI模板上。颜色代码表示系数振幅，红色表示STRF代表分量最多的电极。(D)为了捕捉吉他节奏模式的调谐，计算了所有重要STRF的时间调制谱。对于每个电极，以6.66 Hz(红色矩形)的速率提取了所有频谱频率的最大时间调制值。(E)所有提取的值都表示在MNI模板上。红色的电极显示了对吉他节奏模式的调音。

第一个分量(28%的解释方差)显示了一组正系数(图5B中红色部分，上排)，分布在大约500 Hz至7 kHz的宽频率范围内，在观测到的HFA之前约90 ms的窄时间窗口内。这个暂时的瞬态集群揭示了对声音启动的调优。该成分被称为“起始成分”，仅在位于双侧STG后部的电极中发现(图5C，顶行，电极用红色表示)。在图6C的顶行，用红色显示了在具有这个起始分量的电极中，音乐中引起HFA增加最高的部分。这些部分对应于主吉他或合成器主题的开始(图6A，分别为蓝色和紫色条；图6E为放大图)，每2小节播放一次(绿色小节)，以及元音音节核的开始(橙色小节；图6D为放大图)。

▲图6. 音乐元素的编码。(A)整首歌的听觉谱图。声谱图上方的橙色条形标志着人声的所有部分。蓝色条标记主吉他主题，紫色条标记合成器主题。绿色竖条表示一系列的8个4/4小节(或小节)。较粗的橙色和蓝色条分别标记了(D)和(E)中放大的位置。(B)如图5B所示的三个STRF组成部分，即开始(上)、持续(中)和晚开始(下)。(C)音乐谱图(A)和3个STRF分量(B)之间滑动相关性的输出。(D)放大第三声部。歌词呈现在谱图上方，分解成音节。大多数音节在开始和晚开始图(分别为顶部和底部)都触发了HFA的增加，而在整个发声过程中(中间)都观察到HFA的持续增加。(E)放大吉他主音主题。乐谱在谱图的上方。大多数音符在发病和晚发病图(分别为顶部和底部)触发HFA增加，而持续成分(中间)没有HFA增加。

第二个分量(14.7%的解释方差)显示了一组正系数(图5B中行中红色部分)，分布在整个750毫秒的时间窗口和大约4.8到7 kHz的狭窄频率范围内。该成分被称为“持续成分”，在位于双侧STG中部和前部以及双侧SMC的电极中发现(图5C中)。此外，这一成分与音乐中包含人声的部分最相关，因此暗示了对语音的调音(图6C中，红色；图6D为放大图)。

第三个分量(9.8%的解释方差)显示出与开始分量相似的调谐模式，只是在观察到的HFA之前延迟时间更长，约为210 ms(图5B下)。该成分，从现在起被称为“晚发成分”，在双侧STG后部和前部，靠近代表起发成分的电极，以及双侧SMC中发现(图5C下)。与开始分量一样，这个分量与主音吉他的开始以及声乐中音节核的开始最相关，只是潜伏期更长(图6C下；放大图见图6D和6E)。

第四个分量：通过计算时间调制并提取所有347个STRF(图5D红色矩形)在6.66 Hz的速率附近的最大系数，发现了第四个分量。这个速度与节奏吉他的第16个音符相对应，在音乐中无处不在，音乐的节奏为每分钟99次(图5A，电极5)。该成分被称为“节奏成分”，在位于双侧STG中部的电极中发现(图5E)。

音乐声学信息的解剖功能分布

为了评估这些不同的皮质区域和功能成分在表示音乐特征方面的作用，使用线性解码模型进行了损伤分析。本研究使用完整的347个电极模型的预测精度作为基线值(图7)。研究发现电极组的主要影响较为显著。然后，我们进行了一系列事后分析，以检查每个集合对预测准确性的影响。

▲图7. 线性解码模型的损伤分析。通过解剖(A)或功能(B)电极组，在解码模型的预测器中进行了“虚拟病变”。x轴上显示了损伤集，y轴上显示了它们对线性解码模型的预测精度的影响，与使用所有347个重要电极的基线解码模型的性能相比。

解剖损伤(图7A)：去除所有STG或所有正确的STG电极会影响预测精度，与所有其他电极组相比，去除所有STG电极的影响最大。去除右侧STG电极比去除左侧STG电极影响更大，去除左侧STG电极无影响。综上所述，这表明:

(1)与其他区域相比，双侧STG代表了独特的音乐信息；

(2)右侧STG相对于左侧STG具有独特的信息；

(3)左侧STG中的部分音乐信息被冗余编码到右侧STG中，切除SMC、IFG或所有其他区域不影响预测精度。

这些结果表明两个半球代表独特的信息，并有助于音乐解码。此外，去除左半球的单个区域没有影响，但去除所有左电极确实表明左半球存在冗余，音乐信息在空间上分布在左半球区域。

功能性损伤(图7B)：去除所有起始电极和右起始电极都会影响预测精度，对所有发病的影响都最大。没有发现去除左起电极的影响。这表明，与左起跳电极相比，右起跳电极具有独特的信息，并且左起跳电极中的部分音乐信息在右起跳电极中被冗余编码。在晚发性成分中观察到类似的右半球受累模式、。去除所有节律电极和右节律电极都显著影响解码精度。而本研究发现去除左侧节律电极没有影响，去除所有节律电极和右侧节律电极没有差异。这表明，右侧节律电极具有独特的信息，而左侧节律电极中没有多余的信息。尽管有大量的持续电极，但没有发现移除任何一组电极的影响。

结论

本研究对听取音乐的患者的脑电图数据进行了预测建模分析，利用非线性模型从直接的人类神经记录中以最稳健的效果重建音乐。通过基于编码和解码模型的综合解剖功能方法，本研究证实了右半球偏好和STG在音乐感知中的主要作用，证明了一个新的STG亚区适应音乐节奏，并定义了一个对音乐元素表现出持续和开始反应的前后STG组织。这些结果进一步加深了人类对音乐感知背后的神经动力学的理解。

来源：脑机接口社区

专栏作者

杨艺主任医师

首都医科大学附属北京天坛医院

主任医师，国家神经疾病医学中心脑机接口转化研究中心执行副主任。北京大学八年制医学博士，英国牛津大学Nuffield临床神经科学中心访问学者。北京脑科学与类脑研究中心青年学者，北京市科技新星。

聚焦于意识障碍疾病的系统诊断、预后预测和神经调控治疗，以及脑机接口新型技术的临床应用研究。2022年作为项目负责人获批“科技创新2030脑科学与类脑研究”青年项目“意识障碍的闭环神经调控治疗”。

更多精彩内容请关注作者

点击或扫描上方二维码，查看更多“功能”内容

声明：脑医汇旗下神外资讯、神介资讯、神内资讯、脑医咨询、Ai Brain 所发表内容之知识产权为脑医汇及主办方、原作者等相关权利人所有。

投稿邮箱：NAOYIHUI@163.com

未经许可，禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用，亦须注明来源。欢迎转发。