在师生框架下进行数据增强的跨语言合成

Mar, 2022

在师生框架下进行数据增强的跨语言合成

Data-augmented cross-lingual synthesis in a teacher-student framework

Marcel de Korte, Jaebok Kim, Aki Kunikoshi, Adaeze Adigwe, Esther Klabbers

TL;DR本篇论文旨在通过应用师生范式来解决跨语言综合中常见的泛化问题。结果表明，该方法在保持语音自然度和韵律变化的同时，有效提高了说话人特征的保留。

Abstract

cross-lingual synthesis can be defined as the task of letting a speaker generate fluent synthetic speech in another language. This is a challenging task, and resulting speech can suffer from reduced →

cross-lingual synthesis teacher-student paradigm speaker identity synthetic speech naturalness

发现论文，激发创造

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024

多任务学习和说话人分类器联合训练实现跨语言文本转语音

基于多语种转换器文本到语音模型，本文研究了一个多任务学习框架来提高跨语言的说话者相似度，并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练，该模型在主观和客观评估中，可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。

Jan, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

学习跨语言映射提升低资源语音识别的数据增强

利用可学习的跨语言映射和数据增强来提高低资源语言的端到端语音识别准确度。

Jun, 2023

CrossSpeech: 跨语种语音合成的发音无关音频表征

本文提出 CrossSpeech，通过在声学特征级别上有效地分离说话人和语言信息来提高跨语言语音的质量。具体而言，CrossSpeech 将语音生成流程分解为 SIG 和 SDG，通过分别处理每个信息，可以获得分离的说话人和语言表示。通过实验证明，CrossSpeech 在跨语言 TTS 中取得了显著的改进，特别是在与目标说话人的说话人相似性方面。

Feb, 2023

采样、翻译、重组：利用音频对齐进行数据增广的端到端语音翻译

本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法，通过从后缀内存中的文本和音频数据中进行采样，翻译增强后的转录结果，最后重新组合连接的音频段和生成的翻译，不仅训练了机器翻译系统，还使用了基本的现成组件，其资源需求与知识蒸馏相似，但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST，在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。

Mar, 2022

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

使用三元组训练方案提升跨语言语音合成

本文提出了一种三元组训练方案，借助额外的微调阶段和三元组损失在跨语言语音合成中提高发音自然度和可懂度。

Feb, 2022