t-DGR：一种基于轨迹的连续决策深度生成回放方法

Jan, 2024

t-DGR：一种基于轨迹的连续决策深度生成回放方法

t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual Learning in Decision Making

William Yue, Bo Liu, Peter Stone

TL;DR深度生成回放在决策任务的连续学习中作为一种有希望的方法出现。本文提出了一种简单、可伸缩且非自回归的方法，使用生成模型根据轨迹时间步生成任务样本来解决遗忘问题，并在持续世界基准测试中达到了最先进的性能。

Abstract

deep generative replay has emerged as a promising approach for continual learning in decision-making tasks. This approach addresses the problem of catastrophic forgetting by leveraging the generation of trajector

deep generative replay continual learning decision-making tasks autoregressive models state-of-the-art performance

发现论文，激发创造

深度生成回放的持续学习

本文提出一种新的深度学习框架 Deep Generative Replay 来解决在实现万能人工智能时的一个长期问题：灾难性遗忘。通过引入灵感于灵长类大脑海马体的短期记忆系统，在该框架中包含一个生成模型和一个任务求解模型，并在图像分类任务中进行了相关实验和测试。

May, 2017

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

基于扩散双生成回放的连续离线强化学习

我们研究了连续离线强化学习，这是一种实用的范例，用于前向转移和减轻灾难性遗忘，以应对顺序离线任务。我们提出了一种双生成重播框架，通过同时重播生成的伪数据来保留先前的知识。我们将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型，使策略能够继承分布表达能力，以包含逐步丰富的多样行为范围。通过训练一个任务条件的扩散模型来模拟过去任务的状态分布，生成的状态与行为生成器对应的回应配对，以高保真度回放样本来表示旧任务。最后，通过将伪样本与新任务的真样本交错，不断更新状态和行为生成器，以逐步多样化的行为建模，并通过行为克隆对多头评论者进行正则化，以减轻遗忘。实验证明，我们的方法在前向转移方面取得了更好的效果并且由于其高保真度的样本重放，与使用以前的真实数据近似的结果。

Apr, 2024

基於生成回放的評論式學習方法

本研究提出了一种名为 Review Learning 的深度学习连续学习技术，使用神经突触权重中存储的记忆信息生成数据样本，并避免了在数据集转移学习中出现的灾难性遗忘现象，从而在保护数据隐私的前提下，提高了模型的性能表现。在使用三类二分类电子病历数据进行仿真和真实医疗多机构实验验证后，本文表明 Review Learning 能够高效保留之前学习的知识。

Oct, 2022

生成回放与反馈连接作为连续学习的通用策略

本文的主要研究方向是解决人工神经网络在学习新任务时会快速遗忘以前学到的任务而导致无法实现真正的生命周期学习的问题，该文提出了一种新的方法，即基于生成回放的连续学习方法，该方法可以在各种不同的场景下实现优异的性能表现。

Sep, 2018

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022

基于图的持续学习

本文提出通过增加可学习的随机图来维护和重放以前样本的小型陈情表记忆，来解决非静态分布中可用数据的持续学习问题的方法。在多个基准数据集上的实证结果表明，该模型持续胜过最近提出的基线方法，用于无任务的持续学习。

Jul, 2020

基于狄利克雷生成的排练的持续学习

近期的数据驱动任务导向对话系统在增量学习方面存在计算约束和耗时的问题，而连续学习试图通过避免密集的预训练来解决此问题，但它面临的问题是灾难性遗忘。本文提出了 Dirichlet 连续学习（DCL），这是一种新颖的基于生成的排练策略，用于连续学习。与传统上在条件变分自编码器（CVAE）中使用的高斯潜变量不同，DCL 利用 Dirichlet 分布的灵活性和多功能性来建模潜在先验变量。这使得它能够有效地捕捉先前任务的句子级特征并有效地指导伪样本的生成。此外，我们介绍了 Jensen-Shannon 知识蒸馏（JSKD），一种强大的基于逻辑的知识蒸馏方法，在伪样本生成期间增强了知识传递。我们的实验证实了我们方法在意图检测和槽填充任务上的有效性，并且胜过了最先进的方法。

Sep, 2023

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

生成蒸馏下的扩散模型的持续学习

借助生成性重放的扩散模型的生成蒸馏方法，可以显着提升持续学习性能，只需适度增加计算成本。

Nov, 2023