Aug, 2024
单一目标足矣:技能与探索在无奖励、无示范或子目标的对比强化学习中涌现
A Single Goal is All You Need: Skills and Exploration Emerge from
Contrastive RL without Rewards, Demonstrations, or Subgoals
TL;DR本研究解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改,研究表明,智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。