Jun, 2024

少即是多:准确无需 Web 规模数据的语音识别和翻译

TL;DR最新的语音识别和翻译技术依赖于数十万小时的互联网语音数据。我们认为即使不依赖于互联网规模的数据,也可以达到最先进的准确性。Canary - 多语言 ASR 和语音翻译模型在英语、法语、西班牙语和德语等语言上优于当前最先进的模型 - Whisper、OWSM 和 Seamless-M4T,与这些模型相比,它使用的数据量更少一个数量级。三个关键因素使得这种数据高效模型成为可能:(1)基于 FastConformer 的注意力编码器 - 解码器架构,(2)使用机器翻译生成的合成数据进行训练,以及(3)先进的训练技术:数据平衡、动态数据融合、动态分桶和抗噪音微调。该模型以及权重和训练代码将开源。