增强回放的连续强化学习

Nov, 2023

Replay-enhanced Continual Reinforcement Learning

Tiantian Zhang, Kevin Zehua Shen, Zichuan Lin, Bo Yuan, Xueqian Wang...

TL;DRRECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Abstract

Replaying past experiences has proven to be a highly effective approach for averting catastrophic forgetting in supervised continual learning. However, some crucial factors are still largely ignored, making it vulnerable to serious failure, when used as a solution to forgetting in cont

catastrophic forgetting continual reinforcement learning replay-based methods adaptive normalization policy distillation

发现论文，激发创造

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

生成回放与反馈连接作为连续学习的通用策略

本文的主要研究方向是解决人工神经网络在学习新任务时会快速遗忘以前学到的任务而导致无法实现真正的生命周期学习的问题，该文提出了一种新的方法，即基于生成回放的连续学习方法，该方法可以在各种不同的场景下实现优异的性能表现。

Sep, 2018

基于显著性导向的隐藏联想回放用于持续学习

这篇研究论文介绍了一种用于持续学习的新框架，它将关联记忆与回放策略相结合，通过稀疏内存编码归档显著的数据片段，并引入面向内容的记忆检索机制，通过实验证明了该方法在各种持续学习任务中的有效性。

Oct, 2023

基於生成回放的評論式學習方法

本研究提出了一种名为 Review Learning 的深度学习连续学习技术，使用神经突触权重中存储的记忆信息生成数据样本，并避免了在数据集转移学习中出现的灾难性遗忘现象，从而在保护数据隐私的前提下，提高了模型的性能表现。在使用三类二分类电子病历数据进行仿真和真实医疗多机构实验验证后，本文表明 Review Learning 能够高效保留之前学习的知识。

Oct, 2022

基于重播的连续学习在语义分割中的应用: RECALL

研究使用生成对抗网络和网络抓取数据重现不可用的旧类数据，避免遗忘和背景类的数据分布变化，达到在连续学习中存在不同步骤和背景类分布变化的情况下更好的表现。

Aug, 2021

伪重演：实现深度强化学习而不会发生灾难性遗忘

提出了一种利用深度生成网络结合图像分类和强化学习领域中的连续学习思想的模型，该模型具有双重记忆系统和伪回放系统，能够在 Atari 2600 游戏中完成顺序学习而不会遗忘前面的任务，并且随着任务数量的增加不需要额外的存储要求，存储原始数据或重新访问过去的任务。

Dec, 2018

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018

通过流形扩展回放进行持续学习

我们提出了一种新的回放策略，称为 Manifold Expansion Replay (MaER)，通过扩展知识表示的隐含流形，改善模型的鲁棒性和表达能力，以解决在学习新任务过程中由于老知识和新知识之间不平衡导致的灾难性遗忘问题。我们通过对 MNIST、CIFAR10、CIFAR100 和 TinyImageNet 进行广泛实验验证，表明提出的方法在继续学习设置中显著提高了准确性，优于现有技术水平。

Oct, 2023

增强连续强化学习中的世界模型回放

通过引入一种扩充缓冲区的方法来缓解记忆约束，将其与基于模型的强化学习算法结合使用，从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性，并证明了在潜在世界模型的背景下，用于回放缓冲区的分布匹配扩充可以成功防止灾难性遗忘，并大大减少了计算开销。然而，我们也发现此类解决方案并非完全没有缺陷，还存在缺乏可塑性和无法学习新任务等失败模式，可能是持续学习系统的潜在限制。

Jan, 2024