Jun, 2020

深度强化学习中的自动数据增强以实现泛化能力

TL;DR本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。