强化学习的扩散谱表示

Jun, 2024

Diffusion Spectral Representation for Reinforcement Learning

Dmitry Shribak, Chen-Xiao Gao, Yitong Li, Chenjun Xiao, Bo Dai

TL;DR扩展现有方法以适用于更广泛的现实世界应用的关键挑战在于推理时间的计算成本，我们提出了一种利用扩散模型在表示学习视角下的灵活性的 Diff-SR 方法，该方法能够从马尔可夫决策过程（MDP）和部分可观察马尔可夫决策过程（POMDP）中提取足够的价值函数表示，从而实现效率的策略优化和实际算法，并明确绕过从扩散模型中采样的困难和推理成本。

Abstract

diffusion-based models have achieved notable empirical successes in reinforcement learning (RL) due to their expressiveness in modeling complex distributions. Despite existing methods being promising, the key cha

diffusion-based models reinforcement learning diffusion spectral representation value functions policy optimization

发现论文，激发创造

利用扩散概率模型表示策略的强化学习

本文利用扩散概率模型提出了一种新的随机策略表示方法，并证明了它对于多模态分布的优越性，进而应用到无模型在线强化学习中，提出 DIPO 算法，在标准连续控制 Mujoco 基准中取得了显著优势。

May, 2023

强化学习的扩散模型：综述

扩散模型已成为一个突出的生成模型类别，超越了以往的方法，提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展，并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战，然后根据扩散模型在强化学习中的角色提出了现有方法的分类，并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用，同时讨论了当前方法的局限性。最后，我们总结了调研结果，并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在 GitHub 上的代码仓库，用于与扩散模型在强化学习中应用相关的论文和其他资源。

Nov, 2023

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

扩散模型与表征学习综述

扩散模型和表示学习之间的相互作用进行了综述，包括数学基础、去噪网络架构和引导方法等方面，阐述了与扩散模型和表示学习相关的各种方法，并提出了对扩散模型和表示学习分类的综合概述以及现有关注点和潜在研究领域。

Jun, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

基于扩散的表示学习

提出了一种基于扩散的表示学习方法，通过扩展去噪得分匹配框架实现无监督学习；使用此方法学习无限维潜在码，实现半监督图像分类的最优结果，并通过下游任务的表现比较与其他方法的学习表示质量。

May, 2021

重新思考用于多对比度 MRI 超分辨率的扩散模型

提出了一种名为 DiffMSR 的高效扩散模型，用于多对比度磁共振成像的超分辨率重建，通过在高度紧凑的低维潜空间中应用扩散模型生成高频详细信息的先验知识，并设计了 PLWformer 作为解码器，使重建的 MR 图像保持无失真。在公共和临床数据集上的大量实验表明，DiffMSR 优于现有方法。

Apr, 2024

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022