vq-wav2vec:离散语音表示的自我监督学习
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在WSJ测试中,仅使用少量已识别数据,我们的方法成功将WER从传统的log-mel filterbank上降低了最多36%,最终的WER为2.43%,使用的标注数据量较Deep Speech 2少两个数量级。
Apr, 2019
本研究首次证明了从语音音频中学习强大的表征,然后在经过转录的语音上进行微调可以胜过最好的半监督方法,而且概念上更简单, 示范了在有限标注数据情况下实现语音识别的可行性。
Jun, 2020
本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型,发现其中间表征向量所包含的声学信息和语言信息内容,并研究了自动语音识别(ASR)微调对这些观察结果产生的影响,为此提出了一个修改方案,并证明其在低资源设置中提高了单词错误率的表现。
Jul, 2021
本文介绍了w2v-BERT,一个基于Masked Language Modeling的self-supervised模型,结合了对比学习和MLM,用于自我训练语音识别模型。通过对Libri-Light 60k语料库进行训练,该模型在测试数据集上相对于其他最先进的预训练模型减少了5%至10%的相对词错误率,并且在谷歌语音搜索数据集上相对于内部Conformer-based wav2vec 2.0模型提高了超过30%的相对性能。
Aug, 2021
本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务,这种自监督的预训练可以将标记数据需求减少三分之二,并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度(mAP)得分,在多个下游任务中,我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。
Oct, 2021
data2vec是一个使用标准Transformer结构,在语音、NLP或计算机视觉中使用相同的学习方法,能够成功预测全面输入数据的潜在表示的框架,通过用遮掩的输入数据进行自我蒸馏设置,该方法大大提高了音频识别、图像分类和文本理解等任务的性能。
Feb, 2022
Wav2Seq是第一个用于预训练语音数据的自监督方法,采用了伪语言作为紧凑的离散表示,并制定了自监督伪语音识别任务-将音频输入转录为伪子词序列。
May, 2022
提出了一种名为ccc-wav2vec 2.0的新的自监督预训练策略,该方法使用聚类和基于数据增强的相交对比损失作为自监督目标,并取得了约15.6%和12.7%的WER相对改进,也可在Switchboard数据上获得最高14.9%的WER相对改进。
Oct, 2022