generalization remains a challenging problem for deep reinforcement learning
algorithms, which are often trained and tested on the same set of deterministic
game environments. When test environments are unseen an
本文提出一种简单有效的技术,通过引入随机卷积神经网络打乱输入观测数据,在提高深度强化学习智能体的泛化能力方面取得了显著效果,并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性,相比于其他正则化和数据增强方法明显更加优秀。