Feb, 2024

关于端到端语音翻译过滤的案例研究

TL;DR通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量,得到一组更易管理和干净的数据集,并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能,平均提升 4.65 个 BLEU 得分。