CrossSpeech: 跨语种语音合成的发音无关音频表征

Feb, 2023

CrossSpeech: 跨语种语音合成的发音无关音频表征

CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis

Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim

TL;DR本文提出 CrossSpeech，通过在声学特征级别上有效地分离说话人和语言信息来提高跨语言语音的质量。具体而言，CrossSpeech 将语音生成流程分解为 SIG 和 SDG，通过分别处理每个信息，可以获得分离的说话人和语言表示。通过实验证明，CrossSpeech 在跨语言 TTS 中取得了显著的改进，特别是在与目标说话人的说话人相似性方面。

Abstract

While recent text-to-speech (TTS) systems have made remarkable strides toward human-level quality, the performance of cross-lingual tts lags behind that of intra-lingual TTS. This gap is mainly rooted from the speaker-language entanglement problem in →

cross-lingual tts speaker-language entanglement acoustic feature space speaker-independent generator speaker-dependent generator

发现论文，激发创造

DSE-TTS：用于跨语言文本转语音的双说话人嵌入

提出了一种新的双说话人嵌入式 TTS 框架，结合了一种嵌入式用于学习语言发音风格，另一个用于模拟目标说话人的音色，以解决跨语言 TTS 中的噪音干扰和说话人相似度问题。实验证明，这种框架在跨语言合成方面表现优异，尤其在语音自然度方面比最先进的方法要好。

Jun, 2023

基于流模型语音转换实现跨语言语音合成以提高发音

该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Oct, 2022

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

多任务学习和说话人分类器联合训练实现跨语言文本转语音

基于多语种转换器文本到语音模型，本文研究了一个多任务学习框架来提高跨语言的说话者相似度，并提出了与说话人分类器的联合训练来进一步提高说话者相似度。通过使用多任务学习和说话人分类器联合训练，该模型在主观和客观评估中，可以持续地提高训练集中已知和未知说话者的跨语言说话者相似度。

Jan, 2022

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

CrossVoice：使用迁移学习的跨语言韵律保持级联 S2ST

该论文介绍了 CrossVoice，这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译（S2ST）系统，通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较，展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中，CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分，CrossVoice 合成的语音与基准上的人类语音接近，突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。

May, 2024

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

在师生框架下进行数据增强的跨语言合成

本篇论文旨在通过应用师生范式来解决跨语言综合中常见的泛化问题。结果表明，该方法在保持语音自然度和韵律变化的同时，有效提高了说话人特征的保留。

Mar, 2022

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

使用三元组训练方案提升跨语言语音合成

本文提出了一种三元组训练方案，借助额外的微调阶段和三元组损失在跨语言语音合成中提高发音自然度和可懂度。

Feb, 2022