Jan, 2024
基于公共语音识别语料训练的仅解码器模型的极限探索
Exploring the limits of decoder-only models trained on public speech recognition corpora
Ankit Gupta, George Saon, Brian Kingsbury
TL;DR本文研究了使用公共英语 ASR 语料库训练仅解码器模型(DOTA)相比于基于编码器 - 解码器的开源复制模型(OWSM)和 Whisper 的大型语言模型(Whisper large-v3),在几乎所有英语 ASR 基准测试集上取得更好的性能,并在 15 个测试集中的 7 个上超过了 Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。