Dec, 2023

反向学习的目标导向策略

TL;DR我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是 64×64 像素鸟瞰图像,并且可以表明该方法始终达到多个目标。