自我监督的语音和语言模型是否能从人脑中提取相似的表示？

Oct, 2023

自我监督的语音和语言模型是否能从人脑中提取相似的表示？

Do self-supervised speech and language models extract similar representations as human brain?

Peili Chen, Linyang He, Li Fu, Lu Fan, Edward F. Chang...

TL;DR语言和语音模型在自监督学习过程中表现出与语音和语言感知过程中的脑活动的强烈一致性。本研究通过评估两个代表性的自监督学习模型 Wav2Vec2.0 和 GPT-2 的脑预测性能来直接回答这个问题。研究结果显示，两个模型都能准确预测听觉皮层中的语音响应，并且它们的脑预测之间存在显著的相关性。值得注意的是，Wav2Vec2.0 和 GPT-2 之间共享的语音上下文信息在脑活动中解释的变异的大部分超过了静态语义和较低级的声学 - 语音学信息。这些结果强调了自监督学习模型中语音上下文表示的融合以及它们与语音感知的神经网络的一致性，为自监督学习模型和语音语言处理的神经基础提供了有价值的洞见。

Abstract

speech and language models trained through self-supervised learning (SSL) demonstrate strong alignment with brain activity during speech a

speech and language models self-supervised learning brain activity ssl models speech processing

发现论文，激发创造

通过自监督学习构建一个真实的大脑语音处理模型

本论文针对语音识别的问题，提出自我监督学习可能是解决这一问题的一个更好的选择，核心是自己生成特征，通过自我监督可以获得和人脑工作方式类似的神经网络模型，帮助理解语言习得和人脑在语音处理方面的机理。

Jun, 2022

自监督音频模型有效解释人类大脑对语音的反应

本文回顾了目前人类低级听觉处理的现有模型，并利用自学语言模型技术创建了新的人类听觉系统的先进模型。结果表明，与声学基线、音素特征和监督模型相比，来自自监督模型中间层的表示可以显著提高对听觉皮层的 fMRI 记录的预测性能，并且不同的听觉处理区域对信息的不同语言层次表现出偏好。

May, 2022

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

语音语言模型缺乏重要的与大脑相关的语义

文本和语音语言模型能够准确预测脑部活动，但是消除特定的低级刺激特征后发现语音模型失去了对大脑的预测能力，进一步研究显示语音模型需要改进以更好地反映大脑的语言处理。

Nov, 2023

同步还是顺序训练？多任务自监督学习系统中语音表示如何协作

本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统，发现先进行 wav2vec 2.0 的串行训练，再进行 VGS 可以提高音频 - 视觉检索的性能，但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。

Jun, 2023

SpeechGLUE：自监督语音模型能否有效获取语言知识？

本研究探讨了自监督学习技术对于语音表示及其所携带的语言信息的捕捉能力，并通过 SpeechGLUE 基准测试说明了此技术在语言理解任务方面表现不如基于文本的自监督学习，但优于基准模型，展示了它从无标签的语音数据中能够获取特定数量的语言能力。

Jun, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

自监督神经网络在人类语音上预训练能否辨别动物叫声？

本文探讨了在人类语音领域预训练的自监督学习模型是否可以用于生物声学领域，结果表明可以通过这种方式成功地从黄腹掌猴的声音中识别出不同的个体身份信息。

May, 2023

神经语言模型并非一出生就适合大脑数据，但训练有助于改善

本文探讨了使用神经语言模型对大脑活动进行研究的方法，主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响，并提出了未来研究的良好实践建议。

Jul, 2022