深度强化学习中的探索自主内在奖励塑形自动化

Jan, 2023

深度强化学习中的探索自主内在奖励塑形自动化

Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning

Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng

TL;DRAIRS是一种用于强化学习的自动内在奖励塑造方法，通过实时估计的任务返回值来选择适当的奖励函数，提供可靠的探索激励并消除偏见目标问题，同时基于内在奖励工具包的搭建，实现了各种内在奖励方法的高效和可靠实施，通过在Procgen游戏和DeepMind控制套件中进行的广泛模拟，证明了AIRS可以优于基准方案，并以简单的架构实现了优异的性能。

Abstract

We present AIRS: Automatic intrinsic reward shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects