鲁棒零样本文本转语音合成与逆向推导优化

Jul, 2024

鲁棒零样本文本转语音合成与逆向推导优化

Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

Yuchen Hu, Chen Chen, Siyin Wang, Eng Siong Chng, Chao Zhang

TL;DR逆向推断优化（RIO）是一种简单有效的方法，旨在使用来自人类反馈的强化学习，增强基于自回归模型的零样本文本到语音（TTS）系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量，从而选择用于 RLHF 的示例，从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求，并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标，包括平均意见分、词错误率和说话人相似性。值得注意的是，RIO 还可以将错误输出的发生率几乎降为零，与使用地面真实语音作为提示时的稳健性相媲美。

Abstract

In this paper, we propose reverse inference optimization (RIO), a simple and effective method designed to enhance the robustness of autoregressive-model-based zero-shot text-to-speech (TTS) systems using

reverse inference optimization zero-shot text-to-speech reinforcement learning tts robustness bayesian principle

发现论文，激发创造

利用人类反馈提升零样本语音合成

在此研究中，我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法，名为不确定性感知优化（UNO），通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用，实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能，同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。

Jun, 2024

细调文本转语音扩散模型的强化学习

利用强化学习和人类反馈进行扩散模型的文本转语音合成来生成自然且高质量的语音音频。

May, 2024

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而，当参考语音包含噪声时，这种方法的语音合成质量会降低。本文中，我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中，并使用带噪声的参考语音对其进行微调，同时采用了语音增强前端以进一步提高性能。通过客观和主观评估，我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性，并且与语音增强相结合有效地工作。

Jan, 2024

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

RAIN: 语言模型可以自动对齐，无需微调

通过整合自评和倒带机制，本研究发现未对齐的大型语言模型（LLMs）可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference（RAIN），允许预训练的 LLMs 评估自身生成，并利用评估结果对维护 AI 安全进行倒带回溯和前向生成，无需额外数据进行模型对齐，也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性，改善了 LLaMA 30B 模型的无害率，同时在对抗性攻击下降低了攻击成功率。

Sep, 2023

HierSpeech++：通过分层变分推断在语音的语义和声学表示之间建立联系以进行零样本语音合成

HierSpeech++ 是一种快速而强大的零样本语音合成器，适用于文本转语音（TTS）和语音转换（VC），通过采用层次化语音合成框架，显著提高了合成语音的健壮性、表达力和自然度，在零样本语音合成场景中实现了人类级质量。

Nov, 2023

强化自训练（ReST）的语言建模

ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法，可以有效地提高机器翻译的质量和效率。

Aug, 2023

基于流匹配的零样本 TTS 的噪声稳健性研究

对于从噪声音频提示生成的语音合成，我们研究了多种策略来提高其质量，包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等，实验证明相较于应用语音增强到音频提示的方法，我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。

Jun, 2024

多模式 LLMs 中的反向图像检索提示参数记忆

使用 Reverse Image Retrieval（RIR）辅助生成的简单而有效的策略，对于 GPT-4 系列等最先进的多模态大型语言模型（MLLM）来说，RIR 显著提高了知识密集型的视觉问答性能，通过开放式 VQA 评估指标，GPT-4V 提高 37-43％，GPT-4 Turbo 提高 25-27％，GPT-4o 提高 18-20％。

May, 2024