通过对齐的经验估计实现高效的基于偏好的强化学习
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在 50 个偏好标签的情况下,我们实现了与现有方法 500 个偏好标签相同的性能,并恢复了 83% 和 66% 的地面真实奖励策略性能,而它们分别只有 38% 和 21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
Feb, 2024
通过引入对等正则化的自训练方法,克服了偏好强化学习中的相似陷阱问题,并以不同的半监督替代方法和对等正则化学习了多种运动和机器人操作行为。
Jul, 2023
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。
Jun, 2021
本文介绍了一种通过改变查询选择方案以达到查询与策略对齐,从而提高人类反馈效率的方法,并在详尽的实验中表明了该方法在提高人类反馈效率和 RL 样本效率方面的巨大优势。
May, 2023
本文提出了一种状态增强技术,利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持,并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。
Feb, 2023
在这项工作中,我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现,在线下 PBRL 设置中应用两阶段学习存在挑战,即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这一挑战,我们提出了一种通过行为约束实现的两阶段学习方法,即行动剪辑。我们的观点是,数据集中未充分覆盖的状态 - 动作只能提供有限的信息,并增加第二阶段学习问题的复杂性。我们的方法在第二阶段学习期间忽略这些状态 - 动作,以实现更高的学习效率。我们在各种机器人控制环境中通过实证验证证明了我们的方法具有较高的学习效率。
Dec, 2023
研究了强化学习在具有领导者 - 追随者结构的情境马尔可夫博弈中学习 Quantal Stackelberg Equilibrium 的问题,提出了基于函数逼近的在线和离线问题的高效算法,利用最大似然估计来学习追随者的量化响应模型,并结合模型自由或基于模型的强化学习解决领导者的决策问题,同时利用不确定性来实现对乐观和悲观算法的估计,并在线性和短视场景下具备计算效率。
Jul, 2023
为了在人类中心环境中成功融入自主代理,代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法,使得强化学习代理能够根据人类的欲望来调整其行为。然而,人类生活在一个充满各种信息的世界中,其中大部分与完成特定任务无关。本工作提出了第一个利用动态稀疏训练原理学习健壮奖励模型并能够专注于任务相关特征的 PbRL 算法 R2N (Robust-to-Noise)。我们在极其嘈杂的环境设置中研究了 R2N 的有效性,该环境中高达 95% 的状态特征都是干扰项。通过与模拟教师的实验,我们证明了 R2N 能够调整其神经网络的稀疏连接性以专注于任务相关特征,在多个运动和控制环境中明显优于几种最先进的 PbRL 算法。
Jun, 2024
本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题,并提出了一种数据驱动的奖励初始化方法,该方法不会增加人在环中的额外成本,同时只会对 PbRL 代理造成可忽略的成本,通过该方法初始化的奖励模型在状态空间中是均匀的,这减少了多次运行中方法性能的变异性,并且相对于其它初始方法提高了方法的整体性能。
Feb, 2023