利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
通过模型自由的深度神经网络结构,套用归纳偏差这一概念,成功实现了能够规划的强化学习智能体,并在不同领域有着较高的泛化能力和高效性。
Jan, 2019
本文提出了模仿模型方法,将模仿学习和目标导向规划相结合,使用概率预测模型生成解释性的专家级轨迹,以实现特定目标。在动态模拟自主驾驶任务中,我们的方法显著优于六种模仿学习方法和一种基于规划的方法,并可以从专家演示中高效地学习。此外,我们的方法对于目标规范不良的情况具有鲁棒性。
Oct, 2018
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文提出了一种新型的探索计划代理,它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果,优化探索和行动模型学习,运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法,并在探索为中心的视频游戏场景中进行实证评估。
Mar, 2022
通过学习抽象 MDP(Markov 决策过程)来提高智能体在多任务环境中的决策和学习效率。
Jun, 2024
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
May, 2017
该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法,该方法基于马尔科夫状态空间模型,利用未知前提条件下的行动集合,并将技能公式化为基于当前状态提出行动计划的高层抽象策略,以此实现在嘈杂环境下自动学习稳健的高级技能。
Jul, 2022
我们在这项工作中提出了一种新颖的、无需训练的方法,通过在决策时应用迭代推理,基于未来状态表示的连贯性来优化被推理的智能体状态,从而提高了模型驱动的强化学习智能体的性能。
Feb, 2024