基于扩散双生成回放的连续离线强化学习

Apr, 2024

基于扩散双生成回放的连续离线强化学习

Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay

Jinmei Liu, Wenbin Li, Xiangyu Yue, Shilin Zhang, Chunlin Chen...

TL;DR我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Abstract

We study continual offline reinforcement learning, a practical paradigm that facilitates forward transfer and mitigates catastrophic forgetting

continual offline reinforcement learning dual generative replay framework forward transfer mitigates catastrophic forgetting diverse behaviors

发现论文，激发创造

t-DGR：一种基于轨迹的连续决策深度生成回放方法

深度生成回放在决策任务的连续学习中作为一种有希望的方法出现。本文提出了一种简单、可伸缩且非自回归的方法，使用生成模型根据轨迹时间步生成任务样本来解决遗忘问题，并在持续世界基准测试中达到了最先进的性能。

Jan, 2024

生成回放与反馈连接作为连续学习的通用策略

本文的主要研究方向是解决人工神经网络在学习新任务时会快速遗忘以前学到的任务而导致无法实现真正的生命周期学习的问题，该文提出了一种新的方法，即基于生成回放的连续学习方法，该方法可以在各种不同的场景下实现优异的性能表现。

Sep, 2018

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

深度生成回放的持续学习

本文提出一种新的深度学习框架 Deep Generative Replay 来解决在实现万能人工智能时的一个长期问题：灾难性遗忘。通过引入灵感于灵长类大脑海马体的短期记忆系统，在该框架中包含一个生成模型和一个任务求解模型，并在图像分类任务中进行了相关实验和测试。

May, 2017

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

生成蒸馏下的扩散模型的持续学习

借助生成性重放的扩散模型的生成蒸馏方法，可以显着提升持续学习性能，只需适度增加计算成本。

Nov, 2023

使用生成回放进行强化学习的连续状态表示学习

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018