Nov, 2023

无任务特定知识的自主强化学习自我监督课程生成

TL;DR提出了一种新颖的自主强化学习算法,能够根据智能体的学习进展生成自适应课程,使智能体能够高效地解决稀疏奖励迷宫导航任务,同时减少了手动复位。