Feb, 2022
具可实现性和单策略集中性的离线强化学习
Offline Reinforcement Learning with Realizability and Single-policy Concentrability
Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee
TL;DR本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设,结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度,提供了不同假设的替代分析,为离线 RL 的原始 - 对偶算法提供新方法。