一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

ICMLMay, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback

Kihyun Kim, Jiawei Zhang, Pablo A. Parrilo, Asuman Ozdaglar

TL;DR这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

Abstract

inverse reinforcement learning (IRL) and Reinforcement Learning from Human Feedback (RLHF) are pivotal methodologies in reward learning, which involve inferring and shaping the underlying reward function of seque

inverse reinforcement learning reinforcement learning from human feedback reward learning linear programming sample efficiency

发现论文，激发创造

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO 和 PIRLO，用于解决这个问题。

Feb, 2024

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

基于成对或 K 个比较的人类反馈的有原则强化学习

我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候，最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而，我们表明，在基于学习的奖赏模型的策略时，MLE 失败，而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外，我们证明在 PL 模型下，真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外，真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功，并为算法设计提供了新的见解。此外，我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题，并为 max-entropy IRL 提供了第一个样本复杂度上界。

Jan, 2023

LLM 时代的强化学习：什么是必要的？什么是需要的？强化学习在 RLHF, Prompting 和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如 ChatGPT 和 GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统 RL 研究与 LLM 研究中使用的 RL 技术联系起来。通过讨论 RL 的优点，探索为 RLHF 研究带来或贡献的潜在未来方向。

Oct, 2023

多方可证明强化学习与多样化人工反馈

多方强化学习与人类反馈是新兴的方法，以使模型符合人类的偏好。本文通过理论研究，探讨了多个个体的多样化偏好的多方强化学习方法，并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式，其中包括纳什、功利主义和 Leximin 福利函数。同时，文章还考虑了无奖励设置，并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

Mar, 2024

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

通过展示理解专业技能：一种离线逆向强化学习的最大似然框架

研究了离线逆向强化学习的问题，提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题，并在 MuJoCo 中的连续控制任务以及 D4RL 基准测试中的不同数据集上，展示了算法胜过现有最先进的离线 IRL 和模仿学习基准测试大量的结果。

Feb, 2023