具有子目标预测的目标条件监督学习
本文提出了一种名为Weighted GCSL的离线目标导向强化学习算法,通过引入高级复合权重,优化目标达成的下界限,具有优异的性能表现,特别适用于点和模拟机器人方面。
Feb, 2022
本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用,将目标达成问题重新定义为模仿学习框架,并从该框架中推导出多种算法。实验结果表明,与行为克隆相比,Q-learning算法在追溯重标记技术下表现更优,但两者的普通组合会降低性能。此外,该论文还解释了奖励为(-1,0)明显优于(0,1)时的困惑现象。
Sep, 2022
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
本研究探讨了序列建模在轨迹数据中提取有用表示并对政策学习做出贡献的能力,并引入了Goal-Conditioned Predicitve Coding (GCPC)方法,通过对未来的目标条件潜在表示进行学习实现了竞争力表现。
Jul, 2023
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是64×64像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023
使用SSD模型,基于离线数据集利用条件扩散模型生成高质量计划,成功将离线数据中的子优化轨迹段拼接起来,并在GCRL标准基准任务中取得了领先水平的性能。
Feb, 2024
无监督的目标条件增强学习(GCRL)是一种有前途的方法,可以在没有外部监督的情况下开发多样化的机器人技能。本文提出了一种新颖的无监督GCRL方法,利用时间距离感知表示(TLDR),通过选择远离的目标进行探索并计算基于时间距离的内在探索奖励和目标达成奖励,以克服其他方法在复杂环境中涵盖广泛状态的限制。实验结果表明,我们的方法在六个模拟机器人运动环境中显著优于之前的无监督GCRL方法,可以实现多样的状态。
Jul, 2024