通过想象的子目标进行目标导向强化学习

ICMLJul, 2021

通过想象的子目标进行目标导向强化学习

Goal-Conditioned Reinforcement Learning with Imagined Subgoals

Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev

TL;DR本研究提出了一种将想象中的子目标融入策略学习中的方法，以促进解决需要更复杂的任务，并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。

Abstract

Goal-conditioned reinforcement learning endows an agent with a large variety of skills, but it often struggles to solve tasks that require more temporally extended reasoning. In this work, we propose to incorporate imag

reinforcement learning imagined subgoals complex tasks policy learning robotic manipulation

发现论文，激发创造

使用目标条件策略模拟基于图的规划

该论文提出了一种基于图形规划算法和自我模仿的方法，通过提取子目标策略来优化目标目标策略，从而提高在长期任务中实现指定目标的样本效率。

Mar, 2023

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

具有子目标预测的目标条件监督学习

本文介绍了一种基于 “目标条件下的先验知识学习”（GCSL）算法的延伸方法 TraIL，在原有算法基础之上，通过利用轨迹的信息来预测动作和目标子目标，从而使得智能体可以在更多的目标状态下取得更好的性能表现。

May, 2023

语言作为认知工具在好奇驱动的探索中想象目标

该研究论文旨在探讨发展性机器学习方法，通过模仿儿童利用语言描述目标实现创造性发现和开放式的学习过程中的能力，提出了一种叫做 IMAGINE 的深度强化学习框架，并研究了其泛化和探索能力，以及目标想象、模块化和社交互动等因素对其结果的影响。

Feb, 2020

基于情境的自监督机器人学习中的虚拟目标

研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为，从而掌握丰富的技能和处理不同的任务和环境。

Oct, 2019

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

使用记忆编辑在强化学习中学习用户定义的子目标

通过记忆编辑等技术，实现了强化学习中的控制代理实现中间子目标的方法，可广泛应用于需要在多种场景下控制代理的领域。

May, 2022

Sub-Goal Trees -- 基于目标的强化学习框架

提出了一种基于动态规划方程的强化学习框架，能够自然地解决多目标查询问题，并使用子目标树结构构建轨迹，从而扩展策略梯度法来预测子目标，应用于神经运动规划领域，与标准强化学习相比，取得了显著的改进。

Feb, 2020

自监督学习距离函数用于目标条件强化学习

本文在使用子目标分解强化学习问题时，提出学习适当距离的方法以确定目标是否已实现，并就三种不同情境提出了解决方案，同时还提出了一个目标生成机制。

Jul, 2019