Jan, 2022

生成对抗探索强化学习

TL;DR本文提出一种新方法,即生成对抗性探索 (GAEX),来通过引入来自生成对抗网络的内在奖励,鼓励强化学习中的探索,以帮助鉴别是否访问了新颖的状态,而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明,在 DQN 上应用 GAEX,可以在不进一步调整复杂的学习算法的情况下,在具有挑战性的探索问题中实现令人信服的性能提升,包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知,这是首次使用 GAN 解决强化学习中的探索问题。