Mar, 2024

VDSC: 基于价值差异和状态计数的增强探索时机

TL;DR提出基于价值差异和状态计数的内部状态驱动探索新方法VDSC,实验证明其在Atari套件上的优越性。