Aug, 2020

超越方差减少:理解基线对策略优化的真正影响

TL;DR本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态,证明了在赌博机和强化学习问题中,曲率和噪声不能充分解释这些问题,若算法收敛进行的选择不当,有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现,并将其扩展到多状态 MDPs 。