ICMLJul, 2022

从像素实现稳定的离线 Deep 强化学习

TL;DR本文提出了一个新的方法 A-LIX,通过提供适应性正则化来防止出现灾难性的自我过度拟合现象,该方法在 DeepMind Control 和 Atari 100k benchmarks 上显著优于之前的最先进方法,而不需要进行数据增强或辅助损失。