ICLRMay, 2021

CASA: 冲突回避策略迭代,弥合政策改进和政策评估之间的差距

TL;DR本文提出了一种模型无关的强化学习方法,通过对策略评估和策略改进之间的不一致性进行规范化,采取熵正则化策略改进,有效缓解两个 GPI 步骤之间的梯度冲突并避免落入次优解,该方法在 Arcade Learning Environment 上的实验证明在主要评估领域中优于几种强的基线。