Mar, 2024

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

TL;DR通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。