ICMLFeb, 2022

随机投影量化器的自监督学习用于语音识别

TL;DR论文介绍了一种针对语音识别的自监督学习方法,通过使用随机投影量化器生成离散标签,从而学习模型预测被屏蔽掉的语音信号,并在不更新随机初始化矩阵和码本的情况下实现。通过实验,该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率,并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟,在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。