wav2vec: 语音识别的无监督预训练

Apr, 2019

wav2vec: Unsupervised Pre-training for Speech Recognition

Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli

TL;DR本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在WSJ测试中，仅使用少量已识别数据，我们的方法成功将WER从传统的log-mel filterbank上降低了最多36％，最终的WER为2.43％，使用的标注数据量较Deep Speech 2少两个数量级。

Abstract

We explore unsupervised pre-training for speech recognition by learning representations of raw audio. wav2vec is trained on large amounts