从零开始学习基于模型的规划

Jul, 2017

Learning model-based planning from scratch

Razvan Pascanu, Yujia Li, Oriol Vinyals, Nicolas Heess, Lars Buesing...

TL;DR介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Abstract

Conventional wisdom holds that model-based planning is a powerful approach to sequential decision-making. It is often very challenging in practice, however, because while a model can be used to evaluate a plan, i

model-based planning sequential decision-making imagination-based planner imagined actions learned policy

发现论文，激发创造

基于数据驱动的模仿学习规划

利用数据驱动的模仿学习框架，通过模仿一个清晰的预测者，解决了机器人规划中的优化问题，从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证，包括真实的无人机实验，并且表现优于现有的算法。

Nov, 2017

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019

灵活推理、规划和控制的深度仿真模型

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

利用探索性规划进行自主学习动作模型

本文提出了一种新型的探索计划代理，它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果，优化探索和行动模型学习，运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法，并在探索为中心的视频游戏场景中进行实证评估。

Mar, 2022

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

基于模型的离散和连续行动规划

本文介绍了一种使用前向模型的行动计划方法，在离散动作空间中通过反向传播实现规划，使用参数化的动作向量和输入噪声，同时使用策略蒸馏方法，性能优于模型自由 RL 和离散计划方法，可以应用于离散和连续动作空间的模型控制任务。

May, 2017

通过观察和学习世界的运作，发现利用 ' 赌博式 ' 选择进行规划的生活技能

该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法，该方法基于马尔科夫状态空间模型，利用未知前提条件下的行动集合，并将技能公式化为基于当前状态提出行动计划的高层抽象策略，以此实现在嘈杂环境下自动学习稳健的高级技能。

Jul, 2022

疑虑时，慢思考：具有潜在想象力的迭代推理

我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Feb, 2024