The discounting mechanism in reinforcement learning determines the relative
importance of future and present rewards. While exponential discounting is
widely used in practice, non-exponential discounting methods
这篇研究论文介绍了利用强化学习(Reinforcement Learning)算法设计动力系统状态空间上的实验的方法,通过将优化问题转化为凸强化学习(Convex RL),并利用几何结构进行抽象,提出了具有统计和计算效率优势的几何主动探索(Geometric Active Exploration)算法。
本文提出一种新方法,即生成对抗性探索 (GAEX),来通过引入来自生成对抗网络的内在奖励,鼓励强化学习中的探索,以帮助鉴别是否访问了新颖的状态,而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明,在 DQN 上应用 GAEX,可以在不进一步调整复杂的学习算法的情况下,在具有挑战性的探索问题中实现令人信服的性能提升,包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知,这是首次使用 GAN 解决强化学习中的探索问题。