Aug, 2024

单一目标足矣:技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

TL;DR本研究解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改,研究表明,智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。