AAAISep, 2019

自适应信任域策略优化:正则化 MDPs 的全局收敛和更快速率

TL;DR本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本,并在规则化 MDP 中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在 RL 中的首个更好的结果。