从人类反馈中进行吉布斯采样：基于可证明的 KL 约束的 RLHF 框架

Dec, 2023

从人类反馈中进行吉布斯采样：基于可证明的 KL 约束的 RLHF 框架

Gibbs Sampling from Human Feedback: A Provable KL- constrained Framework for RLHF

Wei Xiong, Hanze Dong, Chenlu Ye, Han Zhong, Nan Jiang...

TL;DR研究生成模型与强化学习从人类反馈中的对齐过程的理论框架，考虑了逆 KL 正则化情境赌博机在此方面的应用，通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系，为未来算法设计提供新的工具和见解。

Abstract

This paper studies the theoretical framework of the alignment process of generative models with reinforcement learning from Human Feedback (RLHF). We consider a standard mathematical formulation, the reverse-KL r

generative models reinforcement learning reverse-kl regularized contextual bandit theoretical analysis alignment algorithms

发现论文，激发创造

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

在线和离线配准算法之间性能差距的理解

通过一系列实验证明在线方法优于离线方法，且离线算法训练的策略对生成任务更差，而在线算法对成对分类较差，提示在线采样在人工智能对齐中扮演了关键角色，并暗示了离线对齐算法的一些基本挑战。

May, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

RLHF 工作流程：从奖励建模到在线强化学习

我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代 RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代 RLHF 方法。

May, 2024

使用生成对抗反馈来微调语言模型

研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

May, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024