借助人类反馈的强化学习：通过悲观主义学习动态选择

May, 2023

借助人类反馈的强化学习：通过悲观主义学习动态选择

Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism

Zihao Li, Zhuoran Yang, Mengdi Wang

TL;DR本文提出了一种基于动态离散选择模型的离线强化学习算法，通过最大似然估计来估计人类行为策略和状态 - 动作价值函数，通过最小化贝尔曼均方误差来恢复人类奖励，然后调用悲观值迭代算法来寻找接近最优的策略。该算法是离线 RLHF 的理论担保，并且在数据集只有单个策略覆盖的情况下，与经典的悲观离线 RL 算法相比，其次优性几乎相同，且具有对分布转移和维度依赖性的理论保证。

Abstract

In this paper, we study offline reinforcement learning with human feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choic

offline reinforcement learning human feedback dynamic discrete choice model maximum likelihood estimation pessimistic value iteration

发现论文，激发创造

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

奖励模型学习与直接策略优化：从人类偏好中学习的比较分析

通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例，我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。

Mar, 2024

多方可证明强化学习与多样化人工反馈

多方强化学习与人类反馈是新兴的方法，以使模型符合人类的偏好。本文通过理论研究，探讨了多个个体的多样化偏好的多方强化学习方法，并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式，其中包括纳什、功利主义和 Leximin 福利函数。同时，文章还考虑了无奖励设置，并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

Mar, 2024

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024