Jun, 2024

通过继任状态度量学习多样技能的探索

TL;DR通过最大化互信息和探索奖励,我们的 LEADS 方法能够在不依赖奖励或探索奖励的情况下构建全面覆盖状态空间的多样化技能集合。