Oct, 2021

乐观策略优化在非平稳 MDPs 中被证明是高效的

TL;DR通过提出一种名为 PROPO 的算法,本文研究了非稳态线性核马尔科夫决策过程中的史诗强化学习,它是第一个可以处理非稳态的可证明有效的策略优化算法。