PolyVoice: 语言模型用于语音翻译

Jun, 2023

PolyVoice: Language Models for Speech to Speech Translation

Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang...

TL;DR我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Abstract

We propose polyvoice, a language model-based framework for speech-to-speech translation (→

polyvoice s2st language model speech synthesis translation

发现论文，激发创造

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了 10 分钟的数据训练该技术，可在 VoxPopuli S2ST 数据集上实现平均 3.2 BLEU 分数的增益，是首次建立了可用于多种语言对的无文本 S2ST 技术。

Dec, 2021

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

CrossVoice：使用迁移学习的跨语言韵律保持级联 S2ST

该论文介绍了 CrossVoice，这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译（S2ST）系统，通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较，展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中，CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分，CrossVoice 合成的语音与基准上的人类语音接近，突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。

May, 2024

多语言语音翻译至多个目标语言

提出了一种支持多个目标语言的多语言语音翻译模型，采用语音单元和语音合成器进行多语言扩展，并在基准翻译测试集中表现优于双语模型。

Jul, 2023

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

TranSpeech: 双向干扰下的语音翻译

本文提出了使用双向扰动的语音到语音翻译模型 TranSpeech，该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性，并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明，与基准 S2ST 模型相比，BiP 平均提高了 2.9 BLEU 分数，并且我们的并行解码技术使推理延迟大幅降低。

May, 2022

Translatotron 2: 高质量带声音保留的直接语音翻译

该研究提出了 Translatotron 2，一种神经直接语音转语音翻译模型，它具备优秀的翻译质量和语音生成质量，并推出了一种简单方法来保留语音翻译时原始说话者声音，与现有方法相比，它更好地保留了说话者的隐私。

Jul, 2021