细调文本转语音扩散模型的强化学习

May, 2024

细调文本转语音扩散模型的强化学习

Reinforcement Learning for Fine-tuning Text-to-speech Diffusion Models

Jingyi Chen, Ju-Seung Byun, Micha Elsner, Andrew Perrault

TL;DR利用强化学习和人类反馈进行扩散模型的文本转语音合成来生成自然且高质量的语音音频。

Abstract

Recent advancements in generative models have sparked significant interest within the machine learning community. Particularly, diffusion models have demonstrated remarkable capabilities in synthesizing images an

generative models diffusion models reinforcement learning with human feedback text-to-speech synthesis dlpo

发现论文，激发创造

采用 RLHF 推进翻译偏好建模：迈向经济高效的解决方案

利用加强学习与人类反馈（RLHF）来改善机器翻译的质量，通过优化奖励模型区分人工和机器翻译，实验结果表明 RLHF 可以有效提升翻译质量，并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。

Feb, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

大规模强化学习用于扩散模型

本文介绍了一种有效可扩展的算法，利用强化学习（RL）在各种奖励函数上改进扩散模型，包括人类偏好、组合性和公平性，从而有效地解决了扩散模型与人类偏好不一致的问题，同时提高了生成样本的组合性和多样性。

Jan, 2024

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

纳什学习来自人类反馈

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024