在师生框架下进行数据增强的跨语言合成
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
基于多语种转换器文本到语音模型,本文研究了一个多任务学习框架来提高跨语言的说话者相似度,并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练,该模型在主观和客观评估中,可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。
Jan, 2022
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
Mar, 2023
本文提出 CrossSpeech,通过在声学特征级别上有效地分离说话人和语言信息来提高跨语言语音的质量。具体而言,CrossSpeech 将语音生成流程分解为 SIG 和 SDG,通过分别处理每个信息,可以获得分离的说话人和语言表示。通过实验证明,CrossSpeech 在跨语言 TTS 中取得了显著的改进,特别是在与目标说话人的说话人相似性方面。
Feb, 2023
本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法,通过从后缀内存中的文本和音频数据中进行采样,翻译增强后的转录结果,最后重新组合连接的音频段和生成的翻译,不仅训练了机器翻译系统,还使用了基本的现成组件,其资源需求与知识蒸馏相似,但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST,在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。
Mar, 2022
该论文基于 Tacotron 合成模型,采用多说话人、多语言合成的方式,在没有任何双语或平行示例的情况下,实现了跨语言的语音转移。通过使用音素输入表征,鼓励模型跨语言共享模型容量,并结合对抗损失项,鼓励模型将语音内容与说话人身份表示分离,可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。
Jul, 2019