基于流模型语音转换实现跨语言语音合成以提高发音

Oct, 2022

基于流模型语音转换实现跨语言语音合成以提高发音

Cross-lingual Text-To-Speech with Flow-based Voice Conversion for Improved Pronunciation

Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Georgia Maniati, Panos Kakoulidis...

TL;DR该论文介绍了一种端到端的跨语言文字转语音方法，使用基于非注意力 Tacotron 架构的模型，并通过使用条件为说话人身份的归一化流网络，实现 TTS 和语音转换（VC）的可同时进行，该方法可以在低资源情景下获得良好效果。

Abstract

This paper presents a method for end-to-end cross-lingual text-to-speech (TTS) which aims to preserve the target language's pronunciation regardless of the original speaker's language. The model used is based on a non-attentive Tacotron architecture, where the decoder has been replaced

cross-lingual text-to-speech non-attentive tacotron architecture normalizing flow network voice conversion low-resource scenarios

发现论文，激发创造

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

学习外语流利口语：多语言语音合成和跨语言语音克隆

该论文基于 Tacotron 合成模型，采用多说话人、多语言合成的方式，在没有任何双语或平行示例的情况下，实现了跨语言的语音转移。通过使用音素输入表征，鼓励模型跨语言共享模型容量，并结合对抗损失项，鼓励模型将语音内容与说话人身份表示分离，可以训练出一个可以用于所有训练语言的说话人的稳定可靠的语音合成模型。

Jul, 2019

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

利用正规化流生成新的语音

通过归一化流（normalizing flows）实现从训练时未见过的声音身份合成逼真、自然的合成语音的研究中，我们创建了一种文本转语音（TTS）和语音转换（VC）的方法，并使用客观和主观指标来评估技术在零样本和新声音语音合成任务中的性能，实验证明该方法能够在零样本语音合成和创造未在训练集中出现的多种新声音方面取得最先进的性能。

Dec, 2023

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

CrossVoice：使用迁移学习的跨语言韵律保持级联 S2ST

该论文介绍了 CrossVoice，这是一种采用先进的 ASR、MT 和 TTS 技术的级联式语音到语音翻译（S2ST）系统，通过迁移学习实现跨语言语调保留。我们通过与直接 S2ST 系统的全面实验比较，展示了在 Fisher Es-En、VoxPopuli Fr-En 等任务中，CrossVoice 在 BLEU 分数上的改进以及在基准数据集 CVSS-T 和 IndicTTS 上的语调保留能力。通过平均 4 分中的 3.75 的意见得分，CrossVoice 合成的语音与基准上的人类语音接近，突出了级联式系统和迁移学习在多语言 S2ST 中的有效性。

May, 2024

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

CrossSpeech: 跨语种语音合成的发音无关音频表征

本文提出 CrossSpeech，通过在声学特征级别上有效地分离说话人和语言信息来提高跨语言语音的质量。具体而言，CrossSpeech 将语音生成流程分解为 SIG 和 SDG，通过分别处理每个信息，可以获得分离的说话人和语言表示。通过实验证明，CrossSpeech 在跨语言 TTS 中取得了显著的改进，特别是在与目标说话人的说话人相似性方面。

Feb, 2023

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022