DiffuserLite：实时扩散规划

Jan, 2024

DiffuserLite: Towards Real-time Diffusion Planning

Zibin Dong, Jianye Hao, Yifu Yuan, Fei Ni, Yitian Wang...

TL;DRDiffuserLite 是一种快速轻量级的扩散规划框架，通过引入规划细化过程（PRP）生成粗粒度到细粒度的轨迹，显著减少了冗余信息的建模，并大幅提高了决策频率。

Abstract

diffusion planning has been recognized as an effective decision-making paradigm in various domains. The high-quality conditional generation capability of long-horizon →

diffusion planning decision-making trajectories decision-making frequency diffuserlite

发现论文，激发创造

简单层次规划与扩散

鉴于传统的扩散生成方法在建模离线数据集中的轨迹方面已经证明有效，然而，由于计算挑战和泛化能力的问题，特别是捕捉长期任务的时间抽象方面，我们介绍了一种名为 “层次性扩散器” 的简单、快速且出人意料地有效的规划方法，它结合了层次化和基于扩散的规划的优点。我们的模型在更高的层次上采用 “跳跃” 规划策略，允许其拥有更大的感受域，但计算成本较低，这对于基于扩散的规划方法来说是一个关键因素，我们已经通过实验证实了这一点。此外，这些 “跳跃” 的子目标指导了我们的低层规划器，促进了微调阶段并进一步提高了我们方法的有效性。我们对标准离线强化学习基准进行了实证评估，在培训和规划速度方面，与非层次性扩散器以及其他分层规划方法相比，我们的方法表现出卓越的性能和效率。此外，我们还探讨了我们模型的泛化能力，特别是我们的方法在复合性的分布任务中如何提高泛化能力。

Jan, 2024

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

SafeDiffuser: 弥散概率模型安全规划

我们提出一种新的方法 SafeDiffuser，使用控制屏障函数来确保扩散概率模型满足规范，并将有限时间扩散不变性嵌入去噪扩散过程中，从而实现可信扩散数据生成，并证明我们的方法不仅具有一般化性能，而且还在安全数据生成中创建了鲁棒性。

May, 2023

通过自动检测不可行计划，改进扩散规划器以实现可靠行为综合

通过提供细化引导来优化扩散模型生成的不可靠计划，针对长期规划任务中安全关键应用的需求，我们提出了一种新的元轨迹精炼方法，其中包括使用恢复间隙度量对计划质量进行评估，并利用属性图正则化器防止子优恶补间隙预测器生成的对抗性精炼引导。

Oct, 2023

MetaDiffuser：离线 Meta-RL 的扩散模型作为条件规划器

本文提出了一种基于任务的条件扩散规划器 (MetaDiffuser) 来解决离线 meta-RL 中通用性问题，该规划器可以生成针对任务的轨迹以在各种任务间进行规划。实验结果表明 MetaDiffuser 能够表现出优异的生成轨迹能力，优于其他离线 meta-RL 基线模型。

May, 2023

基于扩散的 3D 场景生成、优化和规划

SceneDiffuser 是一个用于 3D 场景理解的条件生成模型，通过扩散过程，联合制定了场景感知生成、基于物理的优化和面向目标的规划模块，相对于之前的模型，具有内在的场景感知、基于物理的设计器和面向目标的设计等优点，在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。

Jan, 2023

SkillDiffuser: 通过扩散式任务执行中的技能抽象实现可解释的分层规划

SkillDiffuser 是一个集成可解释技能学习与条件扩散规划的分层规划框架，用于从高级指令生成连贯和长程轨迹，在复杂任务中尤其对需要多个连续技能的情况具有挑战性。

Dec, 2023

对比扩散器：通过对比学习规划高回报状态

本文介绍了一种名为 CDiffuser 的新方法，通过引入回报对比机制来改善基础分布，将生成的轨迹中的状态推向高回报状态并远离低回报状态，实验证明该方法在 14 个常用的 D4RL 基准测试中是有效的。

Feb, 2024

强化学习的扩散谱表示

扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本，我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法，该方法能够从马尔可夫决策过程（MDP）和部分可观察马尔可夫决策过程（POMDP）中提取足够的价值函数表示，从而实现效率的策略优化和实际算法，并明确绕过从扩散模型中采样的困难和推理成本。

Jun, 2024

CleanDiffuser：一个易于使用的模块化扩散模型库在决策中的应用

CleanDiffuser 是首个专为决策算法设计的扩散模型库，通过提供简单灵活的构建模块实现各种扩散模型算法，并进行全面评估，为未来研究打下坚实基础。

Jun, 2024