May, 2023

使用值条件状态熵探索加速强化学习

TL;DR本文提出了一种基于价值条件下的状态熵探索技术,该技术通过最大化条件价值估计的状态熵的平均值,分别估计每个状态的状态熵,再通过只考虑状态价值估计相似的访问状态来计算内在奖励,从而避免了低价值状态分布影响高价值状态周围的探索,加速了多种 RL 算法在各种任务中的表现。