Aug, 2023

深度强化学习中的稳健策略优化对抗风格转移

TL;DR该论文提出了一种算法,旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标,其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察,从而最大化代理采取不同行动的概率,而策略网络通过更新参数来最小化这种扰动的影响,同时最大化预期的未来奖励,从而保持稳健性。基于这一设置,我们提出了一种实用的深度强化学习算法 ARPO(对抗鲁棒策略优化),以找到一个能够适应未知环境的鲁棒策略。我们在 Procgen 和 Distracting Control Suite 上评估了我们的方法的泛化能力和样本效率。实验证明,与一些基线算法(包括数据增强)相比,ARPO 展现出了更好的性能。