从非侵入式脑记录中解码语音

Aug, 2022

Decoding speech from non-invasive brain recordings

Alexandre Défossez, Charlotte Caucheteux, Jérémy Rapin, Ori Kabeli, Jean-Rémi King

TL;DR通过对大量受试者进行对比学习，使用自我监督方法设计的神经网络可以从无创脑电图数据中有效识别自由自然语言，为实现从脑电图中实时解码自然语音处理提供了有前途的途径。

Abstract

decoding language from brain activity is a long-awaited goal in both healthcare and neuroscience. Major milestones have recently been reached thanks to intracranial devices: subject-specific pipelines trained on

brain activity natural speech decoding language non-invasive recordings contrastive learning

发现论文，激发创造

解码神经信号为语音

在该论文中，我们首次探索了基于跨注意力的 “whisper” 模型，通过 MEG 信号直接生成文本，而无需教师强制，实现了令人印象深刻的 60.30 和 52.89 的 BLEU-1 得分，该论文还对有关神经解码任务的语音解码形成进行了全面的回顾。

Mar, 2024

从非侵入式脑电记录中解码连续字符语言

通过非侵入式设备从大脑活动中解读自然语言仍然是一个巨大的挑战，本文提出了一种新颖的方法，通过三维卷积网络和信息瓶颈技术对单次非侵入性功能磁共振成像记录进行连续语言解码，该解码器能够生成捕捉到感知语音含义的可理解文本序列，并在跨受试者场景中表现出明显优于现有解码器的性能，展示了非侵入式语言脑机接口在医疗保健和神经科学领域的应用前景。

Mar, 2024

深度表示学习用于开放词汇的脑电图到文本解码

使用预训练语言模型对无创脑机接口（BCI）通过脑电图（EEG）信号进行解码的潜力进行了研究，提出了一个具有先进表示学习方法的无创脑电记录的端到端深度学习框架，并使用新的评估指标验证了该框架在解码效果方面的优越性。

Nov, 2023

迈向被动听取语音期间脑活动的解码

研究目的是调查言语知觉的复杂机制，并最终解码在听取言语时发生的大脑电生理学变化。我们尝试使用深度学习方法从颅内脑电数据中解码听到的言语，目标是促进言语合成的脑 - 机接口技术的发展，并为言语知觉的认知过程提供额外的视角。这一方法不同于传统的言语产生焦点，而选择调查感知言语的神经表达。通过利用深度学习模型的能力，研究旨在建立这些复杂神经活动与相应言语声音之间的联系。尽管该方法尚未取得突破，但研究揭示了解码言语知觉期间神经活动的潜力。我们目前的努力可以作为基础，并且我们对拓展和改进这项工作以更接近先进的脑 - 机接口、更好地理解言语知觉过程及其与口语之间的关系的潜力持乐观态度。

Feb, 2024

MAD：多对多 MEG 到文本解码

本研究提出了一种使用多重对齐框架将脑电信号转换为文本的新方法，通过在 MEG 信号中直接生成全新的文本，实现了令人印象深刻的 BLEU-1 得分，极大地超越了基线模型，显示出实现 BCI 研究的潜力。

Jun, 2024

通过知识蒸馏和潜在扩散模型从脑电图解码视觉大脑表示

本研究通过采用电脑脑波数据对 ImageNet 数据集中的图像进行分类和重建，提出了一种创新的方法。该研究不仅可以从神经活动中解码图像，还能仅利用脑电波数据生成图像的可靠重建，为个性化迅速反馈实验铺平了道路。

Sep, 2023

大脑的苦苦教训：自我监督学习下的语音解码的扩展

开发一组神经科学启发的自监督目标和神经架构，用于从异构和无标记神经记录中进行表征学习，实验证明这些目标学习到的表征能够普遍适用于不同的被试者、数据集和任务，并比仅使用有标记数据时更快地学习；此外，为两个基础性语音解码任务设置了新的基准，这些方法现在可以利用数量级更多的现有数据来训练语音解码模型。

Jun, 2024

离散单元引导的面罩建模：从颅内神经信号解码语音

通过构建多元神经表示，Du-IN 模型可以从特定的脑区提取上下文嵌入，从而在语言相关的脑网络上实现了 SOTA 性能。

May, 2024

利用 fMRI 数据的大脑预测编码进行语言重建

提出了一种用于神经解码和脑预测的新模型 extsc {PredFT}，它结合了主要解码网络和用于预测编码的辅助网络，并通过交叉注意力将脑预测编码表示融入主要解码网络以促进语言模型的生成过程。在最大 BLEU-1 分数为 27.8% 的自然语言理解 fMRI 数据集 Narratives 上进行了实验，取得了当前最先进的解码性能。

May, 2024

使用自监督预训练改进从 ECoG 中的语音解码

近期关于颅内脑机接口的研究表明，通过将问题视为监督学习的一个实例并使用深度神经网络将神经活动映射到文本，口述语言可以被高精度地解码。然而，这些网络以需要大量标记数据作为代价，这对于从人类患者获取到的侵入性神经记录来说特别繁重。通过改造波形向量编码器 (wav2vec) 并利用其他患者的数据，我们证明了可以利用外部数据来改善解码，降低数据收集的负担。最佳情况下，wav2vec 的表示相较原始数据可以将单词错误率提高超过 50%。

May, 2024