Dec, 2022

大规模弱监督进行稳健语音识别

TL;DR研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和稳健性接近,并且同时发布了模型和推理代码,作为进一步稳健语音处理工作的基础。