Oct, 2023

通过创建固定目标来改进内在探索

TL;DR通过定义定制的内部目标,强化学习中的探索奖励可以引导长期探索。基于计数的方法使用状态访问频率来获得探索奖励。本文发现,从基于计数的方法导出的任何内部奖励函数都是非平稳的,从而为agent引入了一个难以优化的目标。我们的工作的关键贡献在于通过增强状态表示将原始的非平稳奖励转化为平稳奖励。为此,我们引入了用于探索的稳态目标(SOFE)框架。SOFE需要为不同的探索奖励确定足够的统计信息,并找到这些统计信息的有效编码,以作为深度网络的输入。SOFE基于提出扩展状态空间的状态增强,但有望简化agent目标的优化。我们的实验证明,SOFE在具有挑战性的探索问题中提高了agent的性能,包括稀疏奖励任务,基于像素的观察,3D导航和程序生成的环境。