Jun, 2024

不使用并行语音数据,是否能实现高质量的直接语音到语音翻译?

TL;DR现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT和TTS已经积累了大量的数据和预训练模型,但尚未完全用于S2ST模型的开发。本文针对此问题提出了一个名为ComSpeech的复合S2ST模型,可以无缝集成任何预训练的S2TT和TTS模型为一个直接的S2ST模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法——ComSpeech-ZS,它仅使用S2TT和TTS数据。通过对比学习在潜在空间中对齐表示,使从TTS数据中学到的语音合成能力能够以零-shot的方式推广到S2ST。在CVSS数据集上的实验结果表明,当有平行语音数据时,ComSpeech在翻译质量和解码速度上都超过了之前的两阶段模型,如UnitY和Translatotron 2。当没有平行语音数据时,ComSpeech-ZS仅在ASR-BLEU上落后于 ame,但胜过了级联模型。