ICLRMay, 2024

CrossVoice:使用迁移学习的跨语言韵律保持级联 S2ST

TL;DR该论文介绍了 CrossVoice,这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译(S2ST)系统,通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较,展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中,CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分,CrossVoice 合成的语音与基准上的人类语音接近,突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。