Aug, 2023

多对多口语翻译通过统一语音和文本表征学习与单元翻译

TL;DR我们提出了一种方法,通过单一模型学习多语言语音和文本的统一表示,特别关注语音合成的目的。我们使用语音单元表示多语言语音音频,这是从自我监督语音模型编码的语音特征的量化表示。因此,我们可以将语音视为伪文本,并构建语音和文本的统一表示。然后,我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器,使用目标语言标记来确定解码器,该模型被优化为将口语语言翻译为目标语言的翻译模型。因此,该模型可以建立口语语言的理解方式,并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务,如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外,我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取:https://URL