多任务学习和说话人分类器联合训练实现跨语言文本转语音

Jan, 2022

多任务学习和说话人分类器联合训练实现跨语言文本转语音

Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker Classifier Joint Training

J. Yang, Lei He

TL;DR基于多语种转换器文本到语音模型，本文研究了一个多任务学习框架来提高跨语言的说话者相似度，并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练，该模型在主观和客观评估中，可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。

Abstract

In cross-lingual speech synthesis, the speech in various languages can be synthesized for a monoglot speaker. Normally, only the data of monoglot speakers are available for model training, thus the speaker similarity

cross-lingual speech synthesis multilingual transformer speaker similarity multi-task learning speaker classifier joint training

发现论文，激发创造

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

使用三元组训练方案提升跨语言语音合成

本文提出了一种三元组训练方案，借助额外的微调阶段和三元组损失在跨语言语音合成中提高发音自然度和可懂度。

Feb, 2022

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

跨语言迁移学习用于多语言任务导向的对话

本文讨论了在任务导向的对话系统中如何识别用户意图和相应的插槽，并通过多种跨语言转移方法进行数据集训练比较

Oct, 2018

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

跨语言对齐与联合训练：比较研究和简单统一框架

本文研究了两种多语言文本学习方法，即 alignment 和 joint training，并提出了将这两种方法结合的框架。实验证明，该框架改善了现有方法的局限性，在 MUSE 双语词汇诱导（BLI）基准测试中性能优于现有方法，并在 CoNLL 跨语言 NER 基准测试上产生了最新的结果。

Oct, 2019