ICMLJun, 2023

使用翻硬币的方法估计强化学习中的假计数以进行探索

TL;DR我们在高维状态空间中提出了一种新的基于计数的探索方法,通过平均来自 Rademacher 分布(或硬币翻转)的样本,得到计数,并使用一个简单的监督学习目标进行优化,可以获得状态的访问计数。此方法在 9 个具有挑战性的探索任务中表现优异,并优于现有的方法。