ICLRFeb, 2023
行为近端策略优化
Behavior Proximal Policy Optimization
Zifeng Zhuang, Kun Lei, Jinxin Liu, Donglin Wang, Yilang Guo
TL;DR本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。