TransVIP: 保留声音和等时性的语音到语音翻译系统

May, 2024

TransVIP: 保留声音和等时性的语音到语音翻译系统

TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation

Chenyang Le, Yao Qian, Dongmei Wang, Long Zhou, Shujie Liu...

TL;DR该研究介绍了一种名为 TransVIP 的新模型框架，该模型通过级联方式利用多样的数据集，在维持发言者的声音特征和等时性的同时实现端到端推理，适用于视频配音等场景，并在法英语言对上的实验中表现出优于当前最先进的语音到语音翻译模型的性能。

Abstract

There is a rising interest and trend in research towards directly translating speech from one language to another, known as end-to-end speech-to-speech translation. However, most end-to-end models struggle to outperform cascade models, i.e., a pipeline framework by concatenating speech recognition, machine translation and text-to-speech models. The primary c

end-to-end speech-to-speech translation cascade models transvip video dubbing french-english language pair

发现论文，激发创造

Translatotron 2: 高质量带声音保留的直接语音翻译

该研究提出了 Translatotron 2，一种神经直接语音转语音翻译模型，它具备优秀的翻译质量和语音生成质量，并推出了一种简单方法来保留语音翻译时原始说话者声音，与现有方法相比，它更好地保留了说话者的隐私。

Jul, 2021

语音的一致转录和翻译

本研究探索了一种同时实现语音转写和翻译的方法，并比较了传统串联式方法和端到端模型的表现。研究发现，直接模型不适用于这一任务，但采用耦合推理过程的端到端模型能够实现强一致性。此外，研究还引入了直接优化一致性的简单技术，并分析了一致性、转写准确性和翻译准确性之间的权衡。

Jul, 2020

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

Face-Dubbing++: 视频的口形同步，保留音频的翻译

本文提出了一种基于神经网络的端到端系统，用于语音保留、唇面同步翻译视频，通过多个组件模型的组合，该系统能够在目标语言中生成保持语音强调、语音特征、原始扬声器面部视频的原始讲话者的视频，并在后续过程中使用人工智能技术进行语音识别、机器翻译、语音合成、语音转换和视频生成。经过实验，我们的系统能够有效地产生令人信服的视频，而且我们也分别对系统的单个组件进行了测试。

Jun, 2022

听写翻译：端到端语音转文本翻译的概念验证

本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文，并提出了一种直接语音到文本翻译的模型，在一小部分法英人造语料库上取得了有希望的结果。

Dec, 2016

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

PolyVoice: 语言模型用于语音翻译

我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Jun, 2023

用于稳健和高效数据的端到端语音翻译的关注传递模型

通过多任务训练，提出了一种使用两个注意力机制的端到端可训练模型，用于直接语音翻译。该模型明显优于其他基线模型，并能更有效地利用辅助训练数据，特别适合于多任务训练。

Apr, 2019

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021