DiffPoGAN：离线强化学习中基于生成对抗网络的扩散策略

Jun, 2024

DiffPoGAN：离线强化学习中基于生成对抗网络的扩散策略

DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning

Xuemin Hu, Shen Li, Yingfen Xu, Bo Tang, Long Chen

TL;DR离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略，利用生成对抗网络生成多样的动作分布，使用最大似然估计方法生成近似行为策略分布的数据，并引入基于鉴别器输出的额外正则化项来有效约束策略探索，实验证明在离线强化学习领域超过了其他方法。

Abstract

offline reinforcement learning (RL) can learn optimal policies from pre-collected offline datasets without interacting with the environment, but the sampled actions of the agent cannot often cover the action distribution under a given state, resulting in the extrapolation error issue.

offline reinforcement learning generative adversarial networks diffpogan policy exploration deep data-driven reinforcement learning

发现论文，激发创造

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

双生成器离线强化学习

本文介绍了一种名为 DASCO 的新方法，用于解决离线强化学习 (GAN) 中存在的矛盾目标问题，该方法采用了双生成器，其中一个最大化回报，另一个捕捉不属于行为策略的数据分布的 “剩余部分”，这两者的混合物接近于行为策略，并近似支持约束，通过在子优数据上进行基准测试，表明 DASCO 明显优于之前的方法，实现了分布约束。

Nov, 2022

作为离线强化学习表现策略类别的扩散策略

本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning)，与行为克隆和策略改进的耦合均有助于实现出色的性能，证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。

Aug, 2022

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

从头学习多模态行为的扩散策略梯度

本研究提出了深度扩散策略梯度（DDiffPG）算法，它能够学习参数化为扩散模型的多模态策略，并通过聚类和内在动机探索来发现和维持多样化行为，同时减少强化学习的贪婪性质，实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明，该算法在复杂的高维连续控制任务中能够掌握多模态行为，并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。

Jun, 2024

离线强化学习的高效扩散策略

该论文提出了一种有效的扩散策略（EDP），用于在线学习优化策略，可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明，EDP 可将扩散策略的训练时间缩短至 5 小时，在 D4RL 基准测试中实现了新的最先进结果。

May, 2023

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

MADiff：离线扩散模型多智能体学习

本文提出 MADiff，一种基于关注力扩散模型的创新多智能体学习框架，用于模拟多智能体间的复杂协调，以发挥扩散的强大的生成能力。实验证明 MADiff 相比基线算法在各种多智能体学习任务中具有较高的性能。

May, 2023

使用强化学习训练扩散模型

本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标，并提出了一种名为去噪扩散策略优化（DDPO）的类策略梯度算法，并进行了实证及效果验证。

May, 2023

基于扩散双生成回放的连续离线强化学习

我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Apr, 2024