Jul, 2024
无监督时序距离感知目标条件强化学习
TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware
Representations
TL;DR无监督的目标条件增强学习(GCRL)是一种有前途的方法,可以在没有外部监督的情况下开发多样化的机器人技能。本文提出了一种新颖的无监督GCRL方法,利用时间距离感知表示(TLDR),通过选择远离的目标进行探索并计算基于时间距离的内在探索奖励和目标达成奖励,以克服其他方法在复杂环境中涵盖广泛状态的限制。实验结果表明,我们的方法在六个模拟机器人运动环境中显著优于之前的无监督GCRL方法,可以实现多样的状态。