ICMLJun, 2022

使用几何策略组合的广义策略改进

TL;DR本文介绍了一种基于几何地平线模型来提高政策表现的方法,该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略,此方法证明了在深度强化学习中取得了不错的效果。同时,文章提供了对 GHM 训练方法的分析和收敛性研究。