BriefGPT.xyz
May, 2023
使用值条件状态熵探索加速强化学习
Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration
HTML
PDF
Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
TL;DR
本文提出了一种基于价值条件下的状态熵探索技术,该技术通过最大化条件价值估计的状态熵的平均值,分别估计每个状态的状态熵,再通过只考虑状态价值估计相似的访问状态来计算内在奖励,从而避免了低价值状态分布影响高价值状态周围的探索,加速了多种RL算法在各种任务中的表现。
Abstract
A promising technique for
exploration
is to maximize the
entropy
of visited state distribution, i.e., state
entropy
, by encouraging unifor
→