ACLJul, 2024

为爱沙尼亚会话式口语翻译的端到端模型进行微调

TL;DR通过网页抓取和合成数据,采用三种已公开可用的端到端模型(Whisper、OWSM 3.1 和 SeamlessM4T)进行精调,结果表明,使用合成数据进行精调可以大幅提高翻译准确性,SeamlessM4T 可以与使用最先进语音识别和机器翻译模型的级联语音翻译系统相媲美甚至超越。