ACLJul, 2021

使用离散单元进行直接语音到语音翻译

TL;DR本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。