扩散式任务无关里程碑规划器

Dec, 2023

Diffused Task-Agnostic Milestone Planner

Mineui Hong, Minjae Kang, Songhwai Oh

TL;DR利用序列建模方法来预测未来轨迹的决策问题在近年来取得了良好的结果。本文进一步利用这种序列预测方法在长期规划、基于视觉的控制和多任务决策等更广泛的领域中进行研究，提出了一种基于扩散模型的生成序列模型的方法，在潜空间内计划一系列里程碑，并使代理人遵循这些里程碑完成给定任务。该方法可以学习控制相关的低维潜变量表示，从而能够高效进行长期规划和基于视觉的控制。此外，我们的方法利用了扩散模型的生成灵活性，可以为多任务决策制定多样的轨迹。我们在离线强化学习（RL）基准测试和视觉操作环境中对该方法进行了验证，结果表明我们的方法在解决长远视角、稀疏奖励任务和多任务问题方面优于离线 RL 方法，并在最具挑战性的基于视觉的操作基准上实现了最先进的性能。

Abstract

Addressing decision-making problems using sequence modeling to predict future trajectories shows promising results in recent years. In this paper, we take a step further to leverage the sequence predictive method in wider areas such as →

sequence modeling long-term planning vision-based control multi-task decision-making diffusion-based generative sequence model

发现论文，激发创造

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

一步一步：里程碑式的长期视觉语言导航

提出了一种基于里程碑的任务追踪模型（M-TRACK），可帮助自主代理并监测其进展，通过在具有大量行动序列和导航里程碑的长时间任务中的应用，相较基础模型获得了 33% 和 52% 的成功率提高。

Feb, 2022

扩散模型是多任务强化学习中有效的规划器和数据生成器

本文提出了一种基于 Transformers 和 prompt 学习的多任务扩散模型 MTDiff，利用扩散模型生成计划和数据合成，实现了跨不同多任务数据之间的隐式知识共享，并在 Meta-World 和 Maze2D 上的 50 个任务和 8 个地图中，达到了比现有算法更好的生成计划效果。

May, 2023

简单层次规划与扩散

鉴于传统的扩散生成方法在建模离线数据集中的轨迹方面已经证明有效，然而，由于计算挑战和泛化能力的问题，特别是捕捉长期任务的时间抽象方面，我们介绍了一种名为 “层次性扩散器” 的简单、快速且出人意料地有效的规划方法，它结合了层次化和基于扩散的规划的优点。我们的模型在更高的层次上采用 “跳跃” 规划策略，允许其拥有更大的感受域，但计算成本较低，这对于基于扩散的规划方法来说是一个关键因素，我们已经通过实验证实了这一点。此外，这些 “跳跃” 的子目标指导了我们的低层规划器，促进了微调阶段并进一步提高了我们方法的有效性。我们对标准离线强化学习基准进行了实证评估，在培训和规划速度方面，与非层次性扩散器以及其他分层规划方法相比，我们的方法表现出卓越的性能和效率。此外，我们还探讨了我们模型的泛化能力，特别是我们的方法在复合性的分布任务中如何提高泛化能力。

Jan, 2024

SkillDiffuser: 通过扩散式任务执行中的技能抽象实现可解释的分层规划

SkillDiffuser 是一个集成可解释技能学习与条件扩散规划的分层规划框架，用于从高级指令生成连贯和长程轨迹，在复杂任务中尤其对需要多个连续技能的情况具有挑战性。

Dec, 2023

分层决策 Transformer

本文提出了一种层次算法用于从演示中学习序列模型，可解决强化学习中的任务策略估计问题，通过选择子目标来指导低层控制器完成任务，改善了以往方法的性能，并证明了其在多项任务中优于基线方法，表明层次模型适用于从演示中学习序列模型。

Sep, 2022

通过扩散学习实现目标达成

Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形，来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法，利用类似扩散过程的思想，在高维空间中构建从潜在目标状态扩散而远离的轨迹，并通过学习类似分值函数的目标条件策略，能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验，结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。

Oct, 2023

运动规划扩散：使用扩散模型学习和规划机器人动作

学习轨迹分布的先验信息可以帮助加速机器人运动规划优化，本工作提出了学习扩散模型作为先验信息的方法，并通过扩散模型的逆去噪过程在任务目标条件下直接从后验轨迹分布中进行采样，实验证明扩散模型是编码高维机器人运动轨迹分布的强先验。

Aug, 2023

MetaDiffuser：离线 Meta-RL 的扩散模型作为条件规划器

本文提出了一种基于任务的条件扩散规划器 (MetaDiffuser) 来解决离线 meta-RL 中通用性问题，该规划器可以生成针对任务的轨迹以在各种任务间进行规划。实验结果表明 MetaDiffuser 能够表现出优异的生成轨迹能力，优于其他离线 meta-RL 基线模型。

May, 2023

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022