增强偏好驱动的强化学习中的鲁棒性：动态稀疏性提升

Jun, 2024

增强偏好驱动的强化学习中的鲁棒性：动态稀疏性提升

Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity

Calarina Muslimani, Bram Grooten, Deepak Ranganatha Sastry Mamillapalli, Mykola Pechenizkiy, Decebal Constantin Mocanu...

TL;DR为了在人类中心环境中成功融入自主代理，代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法，使得强化学习代理能够根据人类的欲望来调整其行为。然而，人类生活在一个充满各种信息的世界中，其中大部分与完成特定任务无关。本工作提出了第一个利用动态稀疏训练原理学习健壮奖励模型并能够专注于任务相关特征的 PbRL 算法 R2N (Robust-to-Noise)。我们在极其嘈杂的环境设置中研究了 R2N 的有效性，该环境中高达 95% 的状态特征都是干扰项。通过与模拟教师的实验，我们证明了 R2N 能够调整其神经网络的稀疏连接性以专注于任务相关特征，在多个运动和控制环境中明显优于几种最先进的 PbRL 算法。

Abstract

For autonomous agents to successfully integrate into human-centered environments, agents should be able to learn from and adapt to humans in their native settings. preference-based reinforcement learning (PbRL) i

autonomous agents preference-based reinforcement learning task-relevant features robust-to-noise (r2n)extremely noisy environment

发现论文，激发创造

具有动力学感知奖励的样本高效偏好强化学习

通过从代理行为的二进制反馈中学习到的动态感知奖励函数，我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数，我们实现了更快的策略学习和更好的最终策略性能。例如，在四足行走、行走者行走和猎豹奔跑中，在 50 个偏好标签的情况下，我们实现了与现有方法 500 个偏好标签相同的性能，并恢复了 83% 和 66% 的地面真实奖励策略性能，而它们分别只有 38% 和 21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

Feb, 2024

多智体基于偏好的强化学习在人工智能团队合作中的基准测试

人机协作中基于偏好的强化学习 (PbRL) 是一个活跃的研究领域，并在单个代理人和观察者在环路场景中取得了显著的进展。然而，在人机合作的多代理强化学习框架中，在人类积极参与并表达对代理行为偏好的应用仍然是未知的。

Dec, 2023

STRAPPER: 基于偏好的自我训练强化学习方法及同伴正则化

通过引入对等正则化的自训练方法，克服了偏好强化学习中的相似陷阱问题，并以不同的半监督替代方法和对等正则化学习了多种运动和机器人操作行为。

Jul, 2023

RIME：基于噪声偏好的鲁棒化基于优先级的强化学习

通过使用人类偏好作为奖励信号，基于偏好的强化学习（PbRL）避免了对奖励设计的需求。然而，当前的 PbRL 算法过于依赖领域专家的高质量反馈，导致鲁棒性不足。本文提出 RIME，一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法结合了基于样本选择的鉴别器，动态过滤去噪偏好以进行鲁棒训练。为了减轻由于错误选择引起的积累误差，我们建议热启动奖励模型，从而在从预训练到在线训练的过渡中弥合性能差距。我们在机器人操作和运动任务上的实验证明，RIME 显著提高了当前最先进的 PbRL 方法的鲁棒性。消融研究进一步证明了热启动对于有限反馈情况下的鲁棒性和反馈效率都至关重要。

Feb, 2024

基于偏好引导的强化学习在高效探索中的应用

通过将人类反馈作为指导，LOPE 方法在困难的任务中提高了探索效率，通过最小化首选轨迹和学习策略之间的最大平均偏差距离，我们提供了理论分析来表征 LOPE 性能提升的边界，并在各种具有挑战性的困难探索环境中展现了比其他最先进方法更好的收敛速度和整体性能。

Jul, 2024

基于数据驱动的奖励初始化偏好强化学习

本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题，并提出了一种数据驱动的奖励初始化方法，该方法不会增加人在环中的额外成本，同时只会对 PbRL 代理造成可忽略的成本，通过该方法初始化的奖励模型在状态空间中是均匀的，这减少了多次运行中方法性能的变异性，并且相对于其它初始方法提高了方法的整体性能。

Feb, 2023

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL 方法 SEER 通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024

Ready Policy One: 通过积极学习构建世界

本文介绍了 Ready Policy One (RP1)，将基于模型的强化学习视为一个主动学习问题，利用混合目标函数，在优化期间关键性的适应，以便在学习的不同阶段权衡奖励与探索，同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估，并证明了与现有方法相比的显著增益。

Feb, 2020