利用人类反馈提升零样本语音合成

Jun, 2024

利用人类反馈提升零样本语音合成

Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback

Chen Chen, Yuchen Hu, Wen Wu, Helin Wang, Eng Siong Chng...

TL;DR在此研究中，我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法，名为不确定性感知优化（UNO），通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用，实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能，同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。

Abstract

In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. However, despite →

text-to-speech human subjective evaluations tts training loop uncertainty-aware optimization zero-shot performance of tts models

发现论文，激发创造

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

基于流匹配的零样本 TTS 的噪声稳健性研究

对于从噪声音频提示生成的语音合成，我们研究了多种策略来提高其质量，包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等，实验证明相较于应用语音增强到音频提示的方法，我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。

Jun, 2024

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

鲁棒零样本文本转语音合成与逆向推导优化

逆向推断优化（RIO）是一种简单有效的方法，旨在使用来自人类反馈的强化学习，增强基于自回归模型的零样本文本到语音（TTS）系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量，从而选择用于 RLHF 的示例，从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求，并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标，包括平均意见分、词错误率和说话人相似性。值得注意的是，RIO 还可以将错误输出的发生率几乎降为零，与使用地面真实语音作为提示时的稳健性相媲美。

Jul, 2024

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而，当参考语音包含噪声时，这种方法的语音合成质量会降低。本文中，我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中，并使用带噪声的参考语音对其进行微调，同时采用了语音增强前端以进一步提高性能。通过客观和主观评估，我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性，并且与语音增强相结合有效地工作。

Jan, 2024