反向学习的目标导向策略

Dec, 2023

Backward Learning for Goal-Conditioned Policies

Marc Höftmann, Jan Robine, Stefan Harmeling

TL;DR我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是64×64像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Abstract

Can we learn policies in reinforcement learning without rewards? Can we learn a policy just by trying to reach a goal state? We answer these questions positively by proposing a multi-step procedure that first lea