RIME：基于噪声偏好的鲁棒化基于优先级的强化学习

Feb, 2024

RIME：基于噪声偏好的鲁棒化基于优先级的强化学习

RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences

Jie Cheng, Gang Xiong, Xingyuan Dai, Qinghai Miao, Yisheng Lv...

TL;DR通过使用人类偏好作为奖励信号，基于偏好的强化学习（PbRL）避免了对奖励设计的需求。然而，当前的 PbRL 算法过于依赖领域专家的高质量反馈，导致鲁棒性不足。本文提出 RIME，一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法结合了基于样本选择的鉴别器，动态过滤去噪偏好以进行鲁棒训练。为了减轻由于错误选择引起的积累误差，我们建议热启动奖励模型，从而在从预训练到在线训练的过渡中弥合性能差距。我们在机器人操作和运动任务上的实验证明，RIME 显著提高了当前最先进的 PbRL 方法的鲁棒性。消融研究进一步证明了热启动对于有限反馈情况下的鲁棒性和反馈效率都至关重要。

Abstract

preference-based reinforcement learning (pbrl) avoids the need for reward engineering by harnessing human preferences as the reward signal. However, current →

preference-based reinforcement learning pbrl rime reward learning robustness

发现论文，激发创造

增强偏好驱动的强化学习中的鲁棒性：动态稀疏性提升

为了在人类中心环境中成功融入自主代理，代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法，使得强化学习代理能够根据人类的欲望来调整其行为。然而，人类生活在一个充满各种信息的世界中，其中大部分与完成特定任务无关。本工作提出了第一个利用动态稀疏训练原理学习健壮奖励模型并能够专注于任务相关特征的 PbRL 算法 R2N (Robust-to-Noise)。我们在极其嘈杂的环境设置中研究了 R2N 的有效性，该环境中高达 95% 的状态特征都是干扰项。通过与模拟教师的实验，我们证明了 R2N 能够调整其神经网络的稀疏连接性以专注于任务相关特征，在多个运动和控制环境中明显优于几种最先进的 PbRL 算法。

Jun, 2024

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL 方法 SEER 通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024

基于数据驱动的奖励初始化偏好强化学习

本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题，并提出了一种数据驱动的奖励初始化方法，该方法不会增加人在环中的额外成本，同时只会对 PbRL 代理造成可忽略的成本，通过该方法初始化的奖励模型在状态空间中是均匀的，这减少了多次运行中方法性能的变异性，并且相对于其它初始方法提高了方法的整体性能。

Feb, 2023

具有动力学感知奖励的样本高效偏好强化学习

通过从代理行为的二进制反馈中学习到的动态感知奖励函数，我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数，我们实现了更快的策略学习和更好的最终策略性能。例如，在四足行走、行走者行走和猎豹奔跑中，在 50 个偏好标签的情况下，我们实现了与现有方法 500 个偏好标签相同的性能，并恢复了 83% 和 66% 的地面真实奖励策略性能，而它们分别只有 38% 和 21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

Feb, 2024

基于状态扩展的人类偏好强化学习方法

本文提出了一种状态增强技术，利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持，并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。

Feb, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

LIRE：面向偏好对齐的逐项奖励增强

提出了一种基于梯度的奖励优化方法 Listwise Reward Enhancement for Preference Alignment (LIRE)，将多个回复的离线奖励融入到简化的列表框架中，从而在训练过程中不需要在线采样。通过自我增强算法，LIRE 在对话和摘要任务的多个基准测试中持续优于现有方法，并且在使用代理奖励模型和人工标注者进行评估时具有良好的迁移性。

May, 2024

B-Pref: 基于好恶好评学习的加强学习基准测试

本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref，该框架使用了一种新的评估指标，旨在衡量算法的性能和鲁棒性，从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。

Nov, 2021

在线强盗学习伴随离线偏好数据

采用有限臂线性赌博机模型作为在线学习的典型模型，通过建模生成数据的专家的能力，我们提出 warmPref-PS 算法，利用带有噪声偏好反馈的离线数据集实现在线学习，并在理论和实证评估中得到支持。

Jun, 2024