离线强化学习中的熵正则化扩散策略与 Q - 集合

Feb, 2024

离线强化学习中的熵正则化扩散策略与 Q - 集合

Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning

Ruoqi Zhang, Ziwei Luo, Jens Sjölund, Thomas B. Schön, Per Mattsson

TL;DR这篇论文介绍了用于离线强化学习的训练扩散策略的先进技术。核心是一种均值回归的随机微分方程 (SDE)，它将复杂的动作分布转化为标准的高斯分布，然后在已知环境状态的条件下采样动作，这类似于典型的扩散策略。我们证明了这种 SDE 有一个解，可以用来计算策略的对数概率，从而产生一个熵正则化项，改善离线数据集的探索性能。为了减轻来自分布外数据点的不准确值函数的影响，我们进一步提出了学习 Q - 集合的下界，以实现更强壮的策略改进。通过将熵正则化的扩散策略与 Q - 集合结合在离线强化学习中，我们的方法在 D4RL 基准测试中实现了最先进的性能。

Abstract

This paper presents advanced techniques of training diffusion policies for offline reinforcement learning (RL). At the core is a mean-reverting stochastic differential equation (SDE) that transfers a complex acti

diffusion policies offline reinforcement learning stochastic differential equation entropy regularizer q-ensembles

发现论文，激发创造

离线强化学习的高效扩散策略

该论文提出了一种有效的扩散策略（EDP），用于在线学习优化策略，可以解决传统 Diffusion-QL 的训练效率低和与基于最大似然的 RL 算法不兼容的问题。研究表明，EDP 可将扩散策略的训练时间缩短至 5 小时，在 D4RL 基准测试中实现了新的最先进结果。

May, 2023

作为离线强化学习表现策略类别的扩散策略

本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning)，与行为克隆和策略改进的耦合均有助于实现出色的性能，证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。

Aug, 2022

离线强化学习中创建信任区域的扩散策略

离线强化学习中的扩散信任 Q 学习方法（DTQL）通过引入扩散模型作为一个强大和有表达力的策略类，消除了训练和推理过程中迭代去噪采样的需要，大大提高了计算效率，并在多个基准任务中展现了优越的性能和算法特性。

May, 2024

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

扩散演员 - 评论者与熵调节器

提出了一种名为 DACER 的在线强化学习算法，通过利用扩散模型的能力来拟合多模态分布，增强策略的表征能力，并提出了一种估算扩散策略熵的方法，在 MuJoCo 基准和多模态任务上实验证明了算法的最先进性能。

May, 2024

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

使用潜在扩散模型生成行为多样的策略

本研究提出使用扩散模型来压缩行为多样性强化学习（QD-RL）中成千上万个策略，将存档压缩到单个生成模型中，达到 13 倍的压缩比例，同时恢复 98% 的原始奖励和 89% 的覆盖率。

May, 2023

扩散演员 - 评论家：将受约束策略迭代形式化为离线强化学习的扩散噪声回归

这篇论文介绍了一种名为 Diffusion Actor-Critic（DAC）的方法，用于解决离线强化学习中价值函数过高估计的问题，并通过扩散模型来表示目标策略，进而通过 Kullback-Leibler（KL）约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明，在几乎所有环境中，其性能优于现有的方法。

May, 2024