强化学习的扩散模型：综述

Nov, 2023

Diffusion Models for Reinforcement Learning: A Survey

Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang...

TL;DR扩散模型已成为一个突出的生成模型类别，超越了以往的方法，提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展，并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战，然后根据扩散模型在强化学习中的角色提出了现有方法的分类，并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用，同时讨论了当前方法的局限性。最后，我们总结了调研结果，并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在 GitHub 上的代码仓库，用于与扩散模型在强化学习中应用相关的论文和其他资源。

Abstract

diffusion models have emerged as a prominent class of generative models, surpassing previous methods regarding sample quality and training stability. Recent works have shown the advantages of →

diffusion models generative models reinforcement learning advancements taxonomy

发现论文，激发创造

扩散模型：方法和应用综述

本文概述了 “扩散模型” 在图像合成、视频生成、分子设计等领域中的应用，并将相关研究分为三大类：高效采样、改进似然估计和处理具有特殊结构的数据。此外，还探讨了将扩散模型与其他生成模型相结合以获得更好结果的潜能，在计算机视觉、自然语言生成、时态数据模型等领域具有广泛的应用。本文旨在提供一个全面的扩散模型综述，指出其重点研究领域并指向未来的研究方向。

Sep, 2022

扩散模型与表征学习综述

扩散模型和表示学习之间的相互作用进行了综述，包括数学基础、去噪网络架构和引导方法等方面，阐述了与扩散模型和表示学习相关的各种方法，并提出了对扩散模型和表示学习分类的综合概述以及现有关注点和潜在研究领域。

Jun, 2024

NLP 中的扩散模型：一项调查

本文对自然语言处理中的扩散模型进行了全面的综述，讨论了不同的模型形式、优势和局限性，以及自然语言生成、情感分析、主题建模和机器翻译等应用。与自回归模型相比，扩散模型具有在生成、插值、令牌级控制和鲁棒性方面的显着优势。未来的研究方向包括把 Transformers 和扩散模型更深层次的结合，发展具有优秀的 few-shot learning 能力的多模态扩散模型和大规模扩散语言模型。

May, 2023

自然语言处理中的扩散模型研究

本文概述和推导了扩散模型的基本理论，回顾了扩散模型在自然语言处理领域的研究结果，并对齐进行了分析和总结，最后记录了本次文献综述研究的经验和感受。

Mar, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

时间序列应用的扩散模型：一项调查

本篇综述着重探讨了基于扩散模型的时间序列预测、插补和生成方法，并比较了不同应用的方法及其联系，最后总结了现有的限制与未来的发展方向。

May, 2023

扩散模型概述：应用、引导生成、统计速率和优化

扩散模型是强大且通用的生成式人工智能技术，在计算机视觉、音频、强化学习和计算生物学等领域取得了巨大的成功。本文回顾了扩散模型的新兴应用，理解了它们在各种控制下的样本生成。同时，我们概述了现有的扩散模型理论，涵盖了它们的统计性质和采样能力。进一步地，我们评述了通过条件扩散模型进行高维结构化优化的新途径，将解决方案的搜索重新定义为条件采样问题，并通过扩散模型进行求解。最后，我们讨论了扩散模型的未来发展方向。本文旨在为刺激前瞻性的扩散模型理论和方法提供全面的理论介绍。

Apr, 2024

扩散模型是多任务强化学习中有效的规划器和数据生成器

本文提出了一种基于 Transformers 和 prompt 学习的多任务扩散模型 MTDiff，利用扩散模型生成计划和数据合成，实现了跨不同多任务数据之间的隐式知识共享，并在 Meta-World 和 Maze2D 上的 50 个任务和 8 个地图中，达到了比现有算法更好的生成计划效果。

May, 2023

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

通过扩散学习实现目标达成

Diffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形，来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法，利用类似扩散过程的思想，在高维空间中构建从潜在目标状态扩散而远离的轨迹，并通过学习类似分值函数的目标条件策略，能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验，结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。

Oct, 2023