vq-wav2vec：离散语音表示的自我监督学习

Oct, 2019

vq-wav2vec：离散语音表示的自我监督学习

vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

Alexei Baevski, Steffen Schneider, Michael Auli

TL;DR该研究提出了vq-wav2vec算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT预训练在TIMIT音素分类和WSJ语音识别方面实现了新的最优结果。

Abstract

We propose vq-wav2vec to learn discrete representations of audio segments through a wav2vec-style self-supervised context prediction task. The algorithm uses either a gumbel softmax or online k-means clustering t

发现论文，激发创造

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在WSJ测试中，仅使用少量已识别数据，我们的方法成功将WER从传统的log-mel filterbank上降低了最多36％，最终的WER为2.43％，使用的标注数据量较Deep Speech 2少两个数量级。

Apr, 2019

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

W2v-BERT: 结合对比学习和掩码语言建模进行自监督语音预训练

本文介绍了w2v-BERT，一个基于Masked Language Modeling的self-supervised模型，结合了对比学习和MLM，用于自我训练语音识别模型。通过对Libri-Light 60k语料库进行训练，该模型在测试数据集上相对于其他最先进的预训练模型减少了5%至10%的相对词错误率，并且在谷歌语音搜索数据集上相对于内部Conformer-based wav2vec 2.0模型提高了超过30%的相对性能。

Aug, 2021

基于Conformer的自监督学习用于非语音音频任务

本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务，这种自监督的预训练可以将标记数据需求减少三分之二，并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度（mAP）得分，在多个下游任务中，我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。

Oct, 2021

data2vec：自监督学习在语音、视觉和语言中的通用框架

data2vec是一个使用标准Transformer结构，在语音、NLP或计算机视觉中使用相同的学习方法，能够成功预测全面输入数据的潜在表示的框架，通过用遮掩的输入数据进行自我蒸馏设置，该方法大大提高了音频识别、图像分类和文本理解等任务的性能。

Feb, 2022

自回归联合训练用于离散语音表示学习

通过生成模型和信息论的联合训练，实现了对离散语音表示的学习，发现该方法学习的语音表示与语音单元高度相关

Mar, 2022

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务-将音频输入转录为伪子词序列。

May, 2022

CCC-wav2vec 2.0：利用聚类辅助的交叉对比自监督学习的语音表征学习

提出了一种名为ccc-wav2vec 2.0的新的自监督预训练策略，该方法使用聚类和基于数据增强的相交对比损失作为自监督目标，并取得了约15.6%和12.7%的WER相对改进，也可在Switchboard数据上获得最高14.9%的WER相对改进。

Oct, 2022