自学习和预训练对于语音识别互补

Oct, 2020

自学习和预训练对于语音识别互补

Self-training and Pre-training are Complementary for Speech Recognition

Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello, Alexis Conneau...

TL;DR这篇论文研究了自我训练和无监督预训练以提高语音识别系统的有效方法，并揭示了伪标记和使用 wav2vec 2.0 进行预训练在各种标签数据集上是有互补性的。使用 Libri-light 的仅 10 分钟标注数据和 LibriVox 的 53000 小时未标注数据，在 Librispeech 的测试集上实现了 3.0％/ 5.2％的识别率，这与一年前只经过 960 小时标注数据训练的最佳系统相媲美。使用所有标注数据的训练实现了 1.5％/ 3.1％的识别率。

Abstract

self-training and unsupervised pre-training have emerged as effective approaches to improve speech recognition systems using unlabeled dat

self-training unsupervised pre-training speech recognition pseudo-labeling wav2vec 2.0

发现论文，激发创造

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

Wav2Vec-Aug: 有限数据下的改进自监督训练

本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题，从而在限制条件下将自监督学习应用于语音表示方面，并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法，在 Librispeech 的测试任务中比 Wav2Vec 2.0 实现了 13％的相对字错误率改进。

Jun, 2022

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

无监督预训练在语音识别中的性能与效率的折衷

对预训练模型在自动语音识别中的性能和效率进行了研究，提出了一种新的模型架构 SEW，其在不同训练环境下都取得了良好的性能和效率。

Sep, 2021

半监督学习在自动语音识别中的极限挑战

该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率，最终实现了 1.4%/2.6% 的识别误差，相比当前最先进水平 1.7%/ 3.3%，表现出显著的提升。

Oct, 2020