基于随机演示的学习：使用重要性采样扩散模型的离线强化学习

May, 2024

基于随机演示的学习：使用重要性采样扩散模型的离线强化学习

Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models

Zeyu Fang, Tian Lan

TL;DR我们提出了一种新的离线强化学习方法，利用引导扩散世界模型来直接评估离线目标策略，并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示，在只有随机或中等专家示范的情况下，我们的方法相较于现有基线表现显著改进，从而需要改进世界模型与离线策略评估之间的对齐。

Abstract

generative models such as diffusion have been employed as world models in offline reinforcement learning to generate synthetic data for mo

generative models diffusion offline reinforcement learning closed-loop policy evaluation world-model adaptation

发现论文，激发创造

政策引导扩散

我们提出了一种使用扩散模型生成基于行为分布的整个轨迹，并通过目标策略引导将合成经验转移到更贴近目标策略的方法，以此代替真实数据进行离线强化学习，并在各种标准离线强化学习算法和环境中取得显著的性能改善。

Apr, 2024

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

DITTO: 带有全局模型的离线模仿学习

使用物理世界模型和在线强化学习，本文提出了一种 DITTO 的离线模仿学习算法，用于解决协变量转移的问题，并通过 Atari 游戏环境测试表明，在线学习性能已经达到了最先进水平。

Feb, 2023

基于扩散的离线强化学习中的长时程回滚动态模型

探索如何将扩散模型（DMs）的能力作为动力学模型在完全离线环境中解耦，以允许学习策略展开轨迹，并展示了 DyDiff 在离线强化学习中的有效性。

May, 2024

基于扩散双生成回放的连续离线强化学习

我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Apr, 2024

通过策略引导的轨迹扩散实现的世界模型

我们提出了一种新的世界建模方法 PolyGRAD，它利用扩散模型和策略的动作分布梯度，通过一次传递生成整个在政策上的合成轨迹，该方法在竞争力预测错误率方面与最先进的自回归基线相当，并且使得能在 “虚拟中” 进行政策优化的性能表现良好。

Dec, 2023

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023