基于偏好的离线强化学习中的列表奖励估计

Aug, 2024

基于偏好的离线强化学习中的列表奖励估计

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning

Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon

TL;DR本研究解决了在偏好强化学习中如何精确设计奖励函数的问题，特别是与人类意图的对齐。我们提出了一种新的离线偏好强化学习方法——列表奖励估计（LiRE），通过构建轨迹的排序列表来利用二阶偏好信息。实验结果表明，LiRE超越了现有的最先进基线，在反馈预算有限的情况下仍表现出色，并在反馈数量和噪声方面展现出鲁棒性。

Abstract

In Reinforcement Learning (RL), designing precise reward functions remains to be a challenge, particularly when aligning with human intent. Preference-based RL (PbRL) was introduced to address this problem by learning reward models from human feedback. However, existing PbRL methods ha

发现论文，激发创造

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在MLE的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023

逆向偏好学习：无奖励函数的基于偏好的强化学习

提出了一种名为Inverse Preference Learning（IPL）的新算法，用于从离线偏好数据中学习奖励函数，该算法使用Q函数来代替学习得到的奖励函数，具有更高的参数效率和更少的算法超参数和学习网络参数。

May, 2023

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

深度强化学习基于层次性弱偏好反馈

通过排列的方式学习奖励函数，本研究提出了一个新的强化学习框架-HERON，通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型，从而在处理复杂任务时减少了人工成本同时提高了性能。

Sep, 2023

在线根据离线偏好进行政策学习

通过整合离线偏好和虚拟偏好，将离线数据和学习代理的行为进行比较，从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导，提高了其泛化能力。

Mar, 2024

最优奖励标注：连接离线偏好与基于奖励的强化学习

提出了一个通用框架来连接偏好反馈和标量奖励，使得现有的离线RL算法能够适应偏好反馈，实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线PBRL算法的学习效果。

Jun, 2024

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了Sim-OPRL的经验性能。

Jun, 2024

离线基于偏好的强化学习的回顾式偏好学习

提出了回顾性偏好学习 (Hindsight Preference Learning, HPL) 方法，通过建模人类偏好来优化离线数据集中的轨迹片段，利用回顾信息计算每步的奖励，以实现更强大和有利的奖励。

Jul, 2024

基于偏好的强化学习进展：综述

该研究解决了强化学习中对准确设计奖励函数的依赖问题，通过利用人类偏好作为反馈，提升学习效率。论文提出了一个统一的基于偏好的强化学习框架，并详细审视了理论保证及实际应用，指出了当前研究的局限性及未来研究方向。该工作有助于推动基于偏好的强化学习在复杂任务中的应用及发展。

Aug, 2024