May, 2024

开放式实现与研究最佳音质要求用于语音处理

TL;DR自学习(SSL)在多种语音任务中被证明是有用的。然而,这些方法通常在数据、内存和计算资源方面要求非常高。BERT 基于随机投影量化器的语音预训练 (BEST-RQ) 是一种 SSL 方法,在自动语音识别(ASR)上表现出色,同时比其他 SSL 方法(如 wav2vec 2.0)更简单。尽管 BEST-RQ 表现出色,但原文缺乏细节,比如预训练中使用的 GPU/TPU 时长以及没有官方易于使用的开源实现。此外,除了 ASR 和语音翻译之外,BEST-RQ 还没有在其他下游任务上进行评估。在这项工作中,我们描述了随机投影量化器的重新实现,并在四个下游任务上与 wav2vec 2.0 进行了初步研究比较。我们讨论了我们实现的细节和差异。我们证明了随机投影量化器可以实现与 wav2vec 2.0 相似的下游性能,同时训练时间减少了两倍以上。