Oct, 2023

自我监督的语音和语言模型是否能从人脑中提取相似的表示?

TL;DR语言和语音模型在自监督学习过程中表现出与语音和语言感知过程中的脑活动的强烈一致性。本研究通过评估两个代表性的自监督学习模型 Wav2Vec2.0 和 GPT-2 的脑预测性能来直接回答这个问题。研究结果显示,两个模型都能准确预测听觉皮层中的语音响应,并且它们的脑预测之间存在显著的相关性。值得注意的是,Wav2Vec2.0 和 GPT-2 之间共享的语音上下文信息在脑活动中解释的变异的大部分超过了静态语义和较低级的声学 - 语音学信息。这些结果强调了自监督学习模型中语音上下文表示的融合以及它们与语音感知的神经网络的一致性,为自监督学习模型和语音语言处理的神经基础提供了有价值的洞见。