使用三元组训练方案提升跨语言语音合成

Feb, 2022

使用三元组训练方案提升跨语言语音合成

Improving Cross-lingual Speech Synthesis with Triplet Training Scheme

Jianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren...

TL;DR本文提出了一种三元组训练方案，借助额外的微调阶段和三元组损失在跨语言语音合成中提高发音自然度和可懂度。

Abstract

Recent advances in cross-lingual text-to-speech (TTS) made it possible to synthesize speech in a language foreign to a monolingual speaker. However, there is still a large gap between the pronunciation of generated cross-lingual speech and that of native speakers in terms of

cross-lingual text-to-speech triplet training pronunciation enhancement fine-tune naturalness

发现论文，激发创造

多任务学习和说话人分类器联合训练实现跨语言文本转语音

基于多语种转换器文本到语音模型，本文研究了一个多任务学习框架来提高跨语言的说话者相似度，并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练，该模型在主观和客观评估中，可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。

Jan, 2022

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

基于流模型语音转换实现跨语言语音合成以提高发音

该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Oct, 2022

TRIP: 多语言语言模型三角形式的文档级预训练

本文介绍了第一个将常规的单语和双语预训练扩展到三语环境的三角形文档级预训练（TRIP）方法，在对文档级机器翻译和跨语言抽象摘要的实验中，TRIP 在三项多语种文档级机器翻译基准和一个跨语言抽象摘要基准上提高了多达 3.65 d-BLEU 点和 6.2 ROUGE-L 点，并且包括多个强大的最先进得分状态。

Dec, 2022

利用多个 TTS 目标提升语音翻译

通过分析不同合成目标语音对直接语音翻译模型的影响，本文提出了一个多任务框架，通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现，在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。

Apr, 2023

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

Translatotron 3: 利用单语料进行语音翻译

本文提出了 Translatotron 3，一种无需监督数据集即可以直接语音为输入，并通过采用掩码自编码器、无监督嵌入式映射和回译相结合的方式进行训练的翻译模型。在西班牙语与英语之间的语音到语音翻译任务中，实验结果显示，Translatotron 3 优于基线级联系统，在不配对会话数据集上报告 18.14 个 BLEU 点的改进。与需要现实数据集或专业模型复制非语言信息的监督方法相比，Translatotron 3 展示了保留非语言信息，如停顿、说话速度和说话者身份的能力。

May, 2023