Aug, 2022

需要一些监管:通过认知不确定性指标在强化学习中融入 Oracle 政策

TL;DR本文提出并应用一种度量Q-值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法F-值。我们在Deep Q-Networks (DQN)中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于CritiC的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的oracle策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到Soft Actor-Critic(SAC),并在几个常见的Gym环境中表明它比普通SAC表现更好。