该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
May, 2023
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。
Jun, 2024
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本研究提出了行为约束的策略优化方法,通过模拟历史状态转移,采用先进的算法,成功地实现了通过行为约束进行离线强化学习。研究中,我们提出了闭式策略改进算子。我们首次发现,行为约束自然促使使用一阶泰勒展开,从而线性逼近策略目标。此外,由于实际数据通常由异构策略收集,因此我们将行为策略建模为高斯混合,并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难,得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法,并在标准 D4RL 基准测试上成功地实验验证了其有效性。
Nov, 2022
本文介绍一种优先回放经验的机制,使用该机制在深度 Q 网络中进行增强学习,提高了在 Atari 游戏中的学习效率, 超过了其他方法,成为了最新的最先进方法。
Nov, 2015
本文介绍了一种称为 OAP 的无交互培训方案,该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制,从而更准确地评估未见数据,实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分(平均增加 29%),特别是在具有挑战性的 AntMaze 任务上(增加 98%)。
Jun, 2023
本论文研究了如何利用离线数据中的原始行为来优化强化学习模型,在一系列基准测试中取得了不错的成果并证明了其有效性。
Oct, 2020
本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择,该方法结合了在线交互和记录数据,利用基于贝叶斯优化和策略相似性的内核函数,通过多个基准测试,包括实际机器人应用,证明该方法改进了最新的离线策略评估估计和纯在线策略评估,解决了缺乏在线交互数据的策略选择问题。
Jun, 2021
这篇论文旨在增强离线强化学习在实际应用场景中具有重尾奖励的鲁棒性。我们提出了两个算法框架 ROAM 和 ROOM,分别用于鲁棒的离线策略评估和离线策略优化。这些框架的核心是将均值中位数方法与离线强化学习相结合,从而能够直接估计值函数估计器的不确定性。理论结果和广泛的实验证明,我们的两个框架在具有重尾奖励分布的日志数据集上优于现有方法。
Oct, 2023
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023