May, 2024

自适应惊喜内在动机的无监督强化学习

TL;DR提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。