Jan, 2023

深度强化学习中的探索自主内在奖励塑形自动化

TL;DRAIRS是一种用于强化学习的自动内在奖励塑造方法,通过实时估计的任务返回值来选择适当的奖励函数,提供可靠的探索激励并消除偏见目标问题,同时基于内在奖励工具包的搭建,实现了各种内在奖励方法的高效和可靠实施,通过在Procgen游戏和DeepMind控制套件中进行的广泛模拟,证明了AIRS可以优于基准方案,并以简单的架构实现了优异的性能。