使用潜在扩散模型生成行为多样的策略

May, 2023

使用潜在扩散模型生成行为多样的策略

Generating Behaviorally Diverse Policies with Latent Diffusion Models

Shashank Hegde, Sumeet Batra, K. R. Zentner, Gaurav S. Sukhatme

TL;DR本研究提出使用扩散模型来压缩行为多样性强化学习（QD-RL）中成千上万个策略，将存档压缩到单个生成模型中，达到 13 倍的压缩比例，同时恢复 98% 的原始奖励和 89% 的覆盖率。

Abstract

Recent progress in quality diversity reinforcement learning (QD-RL) has enabled learning a collection of behaviorally diverse, high performing policies. However, these methods typically involve storing thousands of policies, which results in high space-complexity and poor scaling to ad

quality diversity reinforcement learning archive compression diffusion models policy parameters generative model

发现论文，激发创造

作为离线强化学习表现策略类别的扩散策略

本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning)，与行为克隆和策略改进的耦合均有助于实现出色的性能，证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。

Aug, 2022

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

从头学习多模态行为的扩散策略梯度

本研究提出了深度扩散策略梯度（DDiffPG）算法，它能够学习参数化为扩散模型的多模态策略，并通过聚类和内在动机探索来发现和维持多样化行为，同时减少强化学习的贪婪性质，实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明，该算法在复杂的高维连续控制任务中能够掌握多模态行为，并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。

Jun, 2024

利用扩散概率模型表示策略的强化学习

本文利用扩散概率模型提出了一种新的随机策略表示方法，并证明了它对于多模态分布的优越性，进而应用到无模型在线强化学习中，提出 DIPO 算法，在标准连续控制 Mujoco 基准中取得了显著优势。

May, 2023

离线强化学习的高效扩散策略

该论文提出了一种有效的扩散策略（EDP），用于在线学习优化策略，可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明，EDP 可将扩散策略的训练时间缩短至 5 小时，在 D4RL 基准测试中实现了新的最先进结果。

May, 2023

离线强化学习中创建信任区域的扩散策略

离线强化学习中的扩散信任 Q 学习方法（DTQL）通过引入扩散模型作为一个强大和有表达力的策略类，消除了训练和推理过程中迭代去噪采样的需要，大大提高了计算效率，并在多个基准任务中展现了优越的性能和算法特性。

May, 2024

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

强化学习的扩散模型：综述

扩散模型已成为一个突出的生成模型类别，超越了以往的方法，提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展，并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战，然后根据扩散模型在强化学习中的角色提出了现有方法的分类，并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用，同时讨论了当前方法的局限性。最后，我们总结了调研结果，并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在 GitHub 上的代码仓库，用于与扩散模型在强化学习中应用相关的论文和其他资源。

Nov, 2023

通过 Q-Score 匹配从奖励中学习扩散模型策略

通过利用扩散模型的评分结构与 Q 函数的动作梯度之间的链接结构，我们提出了一种新的学习扩散模型策略的方法，称为 Q-score 匹配，并对该方法提供了理论上的证明。我们在模拟环境中进行实验，以证明我们提出的方法的有效性，并与流行的基准进行比较。

Dec, 2023