政策引导扩散

Apr, 2024

Policy-Guided Diffusion

Matthew Thomas Jackson, Michael Tryfan Matthews, Cong Lu, Benjamin Ellis, Shimon Whiteson...

TL;DR我们提出了一种使用扩散模型生成基于行为分布的整个轨迹，并通过目标策略引导将合成经验转移到更贴近目标策略的方法，以此代替真实数据进行离线强化学习，并在各种标准离线强化学习算法和环境中取得显著的性能改善。

Abstract

In many real-world settings, agents must learn from an offline dataset gathered by some prior behavior policy. Such a setting naturally leads to distribution shift between the behavior policy and the target polic

offline dataset distribution shift policy conservatism synthetic experience offline reinforcement learning

发现论文，激发创造

通过策略引导的轨迹扩散实现的世界模型

我们提出了一种新的世界建模方法 PolyGRAD，它利用扩散模型和策略的动作分布梯度，通过一次传递生成整个在政策上的合成轨迹，该方法在竞争力预测错误率方面与最先进的自回归基线相当，并且使得能在 “虚拟中” 进行政策优化的性能表现良好。

Dec, 2023

基于随机演示的学习：使用重要性采样扩散模型的离线强化学习

我们提出了一种新的离线强化学习方法，利用引导扩散世界模型来直接评估离线目标策略，并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示，在只有随机或中等专家示范的情况下，我们的方法相较于现有基线表现显著改进，从而需要改进世界模型与离线策略评估之间的对齐。

May, 2024

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

基于扩散的离线强化学习中的长时程回滚动态模型

探索如何将扩散模型（DMs）的能力作为动力学模型在完全离线环境中解耦，以允许学习策略展开轨迹，并展示了 DyDiff 在离线强化学习中的有效性。

May, 2024

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022

基于插值的策略扩散行为细化

这篇论文通过使用信息源策略，提出了一种名为 BRIDGER 的方法，在模仿学习任务中优于现有的扩散策略，并在设计方面进行了进一步分析。

Feb, 2024