不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

Jun, 2024

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?

Qingkai Fang, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng

TL;DR现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT和TTS已经积累了大量的数据和预训练模型，但尚未完全用于S2ST模型的开发。本文针对此问题提出了一个名为ComSpeech的复合S2ST模型，可以无缝集成任何预训练的S2TT和TTS模型为一个直接的S2ST模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法——ComSpeech-ZS，它仅使用S2TT和TTS数据。通过对比学习在潜在空间中对齐表示，使从TTS数据中学到的语音合成能力能够以零-shot的方式推广到S2ST。在CVSS数据集上的实验结果表明，当有平行语音数据时，ComSpeech在翻译质量和解码速度上都超过了之前的两阶段模型，如UnitY和Translatotron 2。当没有平行语音数据时，ComSpeech-ZS仅在ASR-BLEU上落后于 ame，但胜过了级联模型。

Abstract

Recently proposed two-pass direct speech-to-speech translation (S2ST) models decompose the task into speech-to-text translation (S2TT) and text-to-speech (TTS) within an end-to-end model, yielding promising results. However, the training of these models still relies on parallel speech