Feb, 2022

具可实现性和单策略集中性的离线强化学习

TL;DR本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设,结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度,提供了不同假设的替代分析,为离线 RL 的原始 - 对偶算法提供新方法。