ICLRFeb, 2023

行为近端策略优化

TL;DR本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。