May, 2022

面对混淆因素的悲观主义:部分可观察马尔可夫决策过程中可证明高效的离线强化学习

TL;DR研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。