使用自监督预训练改进从 ECoG 中的语音解码

May, 2024

使用自监督预训练改进从 ECoG 中的语音解码

Improving Speech Decoding from ECoG with Self-Supervised Pretraining

Brian A. Yuan, Joseph G. Makin

TL;DR近期关于颅内脑机接口的研究表明，通过将问题视为监督学习的一个实例并使用深度神经网络将神经活动映射到文本，口述语言可以被高精度地解码。然而，这些网络以需要大量标记数据作为代价，这对于从人类患者获取到的侵入性神经记录来说特别繁重。通过改造波形向量编码器 (wav2vec) 并利用其他患者的数据，我们证明了可以利用外部数据来改善解码，降低数据收集的负担。最佳情况下，wav2vec 的表示相较原始数据可以将单词错误率提高超过 50%。

Abstract

Recent work on intracranial brain-machine interfaces has demonstrated that spoken speech can be decoded with high accuracy, essentially by treating the problem as an instance of supervised learning and training d

intracranial brain-machine interfaces supervised learning neural activity decoding performance wav2vec

发现论文，激发创造

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

通过自监督学习构建一个真实的大脑语音处理模型

本论文针对语音识别的问题，提出自我监督学习可能是解决这一问题的一个更好的选择，核心是自己生成特征，通过自我监督可以获得和人脑工作方式类似的神经网络模型，帮助理解语言习得和人脑在语音处理方面的机理。

Jun, 2022

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

从非侵入式脑记录中解码语音

通过对大量受试者进行对比学习，使用自我监督方法设计的神经网络可以从无创脑电图数据中有效识别自由自然语言，为实现从脑电图中实时解码自然语音处理提供了有前途的途径。

Aug, 2022

深度表示学习用于开放词汇的脑电图到文本解码

使用预训练语言模型对无创脑机接口（BCI）通过脑电图（EEG）信号进行解码的潜力进行了研究，提出了一个具有先进表示学习方法的无创脑电记录的端到端深度学习框架，并使用新的评估指标验证了该框架在解码效果方面的优越性。

Nov, 2023

ECGBERT: 使用自监督表示学习了解心电图 (ECG) 的隐藏语言

本文提出了一种基于自我监督表示学习的方法 ECGBERT，通过无监督预训练模型，缓解了医疗数据缺乏标注和筛选的问题，并在心房纤颤心律失常检测、心跳分类、睡眠呼吸暂停检测和用户认证等四个任务上展示了 ECGBERT 在各种基于 ECG 的问题上取得最先进的结果的潜力。

Jun, 2023

具有上下文目标表示的视觉、语音和语言自监督高效学习

本文提出 data2vec 2.0 算法，通过利用丰富的上下文目标表示，实现了在几个模态之间进行泛化的快速自监督学习，进而在图像分类、语音识别等领域取得了很好的实验效果。

Dec, 2022

预训练语音编码器的自监督重连：在语音处理中以更少标签更快微调

本文针对预训练语音编码器中的表示空间进行了研究，并通过对比自监督学习构建正对，以实现对表示空间的改进，进而在低资源环境下提高了语音处理任务的收敛速度和表现。

Oct, 2022

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021