POPO: 悲观离线策略优化
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL 具有更好的性能表现。
Feb, 2022
我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO,通过提倡更多的离群值扩展,基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化,并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
May, 2023
稳定离线策略 Q 学习的新方法,通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误,能在标准基准测试中竞争性地表现,并在数据收集策略明显次优的任务中胜过竞争方法。
Nov, 2023
该研究提出离线 RL 方法应该适应不确定性,提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略,并且在离线 RL 基准测试中展示了其有效性。
Jul, 2022
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
本文研究了离线强化学习的一个悲观策略 Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023