ICMLJun, 2024

具有广义函数近似的考虑不确定性的无奖励探索

TL;DR通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明,该算法优于或与现有的无监督强化学习算法的性能相当。