多任务学习和说话人分类器联合训练实现跨语言文本转语音
在跨语言场景中进行了语音表示学习的探索,提出了语音文本联合预训练框架,通过学习重构不同语言的输入来进行预训练,取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。
Nov, 2022
本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器,我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输,其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下,我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。
Jun, 2023
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集,同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明,该模型跨语言信息共享效果良好,在 “代码切换” 语音合成中表现更自然、准确。
Aug, 2020
本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统,通过几个特殊设计的组件 / 技术改善了文本到语音的对齐,并在多个数据集上展示了其效果。
Jun, 2020
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
本文研究了两种多语言文本学习方法,即 alignment 和 joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在 MUSE 双语词汇诱导(BLI)基准测试中性能优于现有方法,并在 CoNLL 跨语言 NER 基准测试上产生了最新的结果。
Oct, 2019