该论文提出了一种基于图形规划算法和自我模仿的方法,通过提取子目标策略来优化目标目标策略,从而提高在长期任务中实现指定目标的样本效率。
Mar, 2023
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
本文介绍了一种基于 “目标条件下的先验知识学习”(GCSL)算法的延伸方法 TraIL,在原有算法基础之上,通过利用轨迹的信息来预测动作和目标子目标,从而使得智能体可以在更多的目标状态下取得更好的性能表现。
May, 2023
该研究论文旨在探讨发展性机器学习方法,通过模仿儿童利用语言描述目标实现创造性发现和开放式的学习过程中的能力,提出了一种叫做 IMAGINE 的深度强化学习框架,并研究了其泛化和探索能力,以及目标想象、模块化和社交互动等因素对其结果的影响。
Feb, 2020
研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为,从而掌握丰富的技能和处理不同的任务和环境。
Oct, 2019
本文提出了一种基于空间推理和 RL 框架的学习方法,通过想象视觉目标并选择适当的行动来完成任务,使用单一外部奖励信号和内部动机来学习,该方法在两个仿真 3D 环境中,进行了验证,并在处理物体排列任务时,优于两个扁平化架构和一个分层架构。
Jan, 2020
通过记忆编辑等技术,实现了强化学习中的控制代理实现中间子目标的方法,可广泛应用于需要在多种场景下控制代理的领域。
May, 2022
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
本文在使用子目标分解强化学习问题时,提出学习适当距离的方法以确定目标是否已实现,并就三种不同情境提出了解决方案,同时还提出了一个目标生成机制。
Jul, 2019