MEReQ：最大熵残差 Q 逆强化学习用于样本高效对齐

Jun, 2024

MEReQ：最大熵残差 Q 逆强化学习用于样本高效对齐

MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention

Yuxin Chen, Chen Tang, Chenran Li, Ran Tian, Peter Stone...

TL;DR利用 MEReQ（Maximum-Entropy Residual-Q Inverse Reinforcement Learning）方法，可以通过人类介入进行样本高效的策略对齐。

Abstract

Aligning robot behavior with human preferences is crucial for deploying embodied ai agents in human-centered environments. A promising solution is interactive imitation learning from human intervention, where a h

embodied ai agents interactive imitation learning mereq sample efficiency policy alignment

发现论文，激发创造

从演示中学习行为软约束

本研究提出了一种新的逆强化学习方法，用于学习马尔可夫决策过程模型中人类在复杂环境中制定决策时的约束和偏好，从而在 AI 与人类的团队中更好的模拟人类行为和提高决策效率。

Feb, 2022

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

行动胜于言辞：从战略反馈中能够证明样本高效度的量化斯塔克尔伯格均衡强化学习

研究了强化学习在具有领导者 - 追随者结构的情境马尔可夫博弈中学习 Quantal Stackelberg Equilibrium 的问题，提出了基于函数逼近的在线和离线问题的高效算法，利用最大似然估计来学习追随者的量化响应模型，并结合模型自由或基于模型的强化学习解决领导者的决策问题，同时利用不确定性来实现对乐观和悲观算法的估计，并在线性和短视场景下具备计算效率。

Jul, 2023

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL 方法 SEER 通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024

基于成对或 K 个比较的人类反馈的有原则强化学习

我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候，最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而，我们表明，在基于学习的奖赏模型的策略时，MLE 失败，而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外，我们证明在 PL 模型下，真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外，真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功，并为算法设计提供了新的见解。此外，我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题，并为 max-entropy IRL 提供了第一个样本复杂度上界。

Jan, 2023

基于偏好的强化学习中的查询策略不匹配

本文介绍了一种通过改变查询选择方案以达到查询与策略对齐，从而提高人类反馈效率的方法，并在详尽的实验中表明了该方法在提高人类反馈效率和 RL 样本效率方面的巨大优势。

May, 2023

可组合的深度强化学习在机器人操作中的应用

本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用，证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率，并且可以通过将学习到的策略组合创建新的策略，从而在真实世界机器人操作中提供高效的工具。

Mar, 2018

如果最大熵强化学习是答案，那么问题是什么？

本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用，该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效，其可以提供一定的洞见，指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。

Oct, 2019

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024