Voice Filter: 基于语音转换后处理模块的少样本文本转语音说话人自适应

Feb, 2022

Voice Filter: 基于语音转换后处理模块的少样本文本转语音说话人自适应

Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module

Adam Gabryś, Goeric Huybrechts, Manuel Sam Ribeiro, Chung-Ming Chien, Julian Roth...

TL;DR本文提出一种极低资源语音合成方法 Voice Filter，它只需要使用目标发言人的一分钟语音，采用基于声音转换（VC）的后处理模块来增强现有的高质量 TTS 系统，成功地解决了低资源 TTS 系统训练中的质量和可理解性降低的问题，并将少样本 TTS 问题视为 VC 任务。此外，本文还提出使用一种持续可控的 TTS 系统创建平行语音语料库以促进 VC 任务。结果表明，Voice Filter 在多个基于大量语音数据声音的客观和主观度量上表现优异。

Abstract

State-of-the-art text-to-speech (TTS) systems require several hours of recorded speech data to generate high-quality synthetic speech. When using reduced amounts of training data, standard TTS models suffer from speech quality and intelligibility degradations, making training

text-to-speech low-resource tts voice filter voice conversion few-shot tts

发现论文，激发创造

零样本语音调制用于去噪扩散 TTS 模型

本文提出了一种新的方法，通过采样识别新目标的自然语音数据，并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频，而不需要进行任何训练步骤。

Jun, 2022

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

UnifySpeech: 零样本文本转语音和语音转换的统一框架

该论文提出了 UnifySpeech 模型，它首次将文字转语音（TTS）和语音转换（VC）结合到一个框架中，通过矢量量化和域限制技术，加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。

Jan, 2023

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

VoiceFilter-Lite: 面向设备的实时定向语音分离技术用于语音识别

本论文介绍了一种能够实时运行于设备上的单通道源分离模型，其可以从一个目标说话者的语音信号中仅保留语音信息，以优化流式语音识别系统的表现。该模型具有分离源、单通道、语音识别、自适应运行时和实时这些特别之处，并通过使用一种新的不对称损失和采用自适应运行时抑制强度来实现这些目标。本论文最终证明了，这种模型可以被量化为 8 位整型模型，并且可以实时运行于设备上。

Sep, 2020

YourTTS: 面向全体人员的零样本多说话人语音合成和零样本语音转换

该研究使用多语言方法进行零样本多说者语音合成，可在低资源语种上实现零样本语音转换，使用 VITS 模型，经过多项创新修改后，在 VCTK 数据集上实现了最先进的结果，并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。

Dec, 2021

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

基于语音合成的小数据情感语音转换：两阶段序列到序列训练

本文提出了一种新的 2 阶段训练策略，用于在保留语言内容和说话者身份的同时改变话语的情感状态，包括用于转换情感样式和语言信息的技术，并在客观和主观评估中显著改善目前的技术水平。

Mar, 2021

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023