Jun, 2024
通过继任状态度量学习多样技能的探索
Exploration by Learning Diverse Skills through Successor State Measures
Paul-Antoine Le Tolguenec, Yann Besse, Florent Teichteil-Konigsbuch, Dennis G. Wilson, Emmanuel Rachelson
TL;DR通过最大化互信息和探索奖励,我们的 LEADS 方法能够在不依赖奖励或探索奖励的情况下构建全面覆盖状态空间的多样化技能集合。