ICLRJan, 2024

识别政策梯度子空间

TL;DR通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现,我们的研究结果表明,尽管强化学习所固有的数据分布不断变化,梯度子空间仍然存在,这为未来更高效的强化学习提供了有益的方向,例如通过改善参数空间探索或实现二阶优化。