AAAIAug, 2022

需要一些监管:通过认知不确定性指标在强化学习中融入 Oracle 政策

TL;DR本文提出并应用一种度量 Q - 值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法 F - 值。我们在 Deep Q-Networks (DQN) 中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于 CritiC 的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的 oracle 策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到 Soft Actor-Critic (SAC),并在几个常见的 Gym 环境中表明它比普通 SAC 表现更好。