持续增强学习的策略融合

ICMLFeb, 2019

Policy Consolidation for Continual Reinforcement Learning

Christos Kaplanis, Murray Shanahan, Claudia Clopath

TL;DR提出了一种针对深度强化学习中灾难性遗忘问题的方法，名为 “策略整合” 模型，能够在不同时间尺度上改进学习效果，适应环境变化并通过历史经验规范化当前策略，从而提高连续学习的效果，在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。

Abstract

We propose a method for tackling catastrophic forgetting in deep reinforcement learning that is \textit{agnostic} to the timescale of changes in the distribution of experiences, does not require knowledge of task boundaries, and can adapt in \textit{continuously} changing environments.

catastrophic forgetting deep reinforcement learning policy consolidation continual learning multi-agent competitive

发现论文，激发创造

伪重演：实现深度强化学习而不会发生灾难性遗忘

提出了一种利用深度生成网络结合图像分类和强化学习领域中的连续学习思想的模型，该模型具有双重记忆系统和伪回放系统，能够在 Atari 2600 游戏中完成顺序学习而不会遗忘前面的任务，并且随着任务数量的增加不需要额外的存储要求，存储原始数据或重新访问过去的任务。

Dec, 2018

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

持续学习中的一致性是进一步减轻灾难性遗忘的关键

通过在 Experience Replay 框架中引入一致性正则化方法，将其作为自监督前提任务，并在各种连续学习场景下进行研究。结果表明，相对严格的一致性约束可以更好地保留以前任务的信息。

Jul, 2022

具备知识整合的记忆高效强化学习

我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法，通过从目标 Q 网络到当前 Q 网络合并知识，减少遗忘并保持高的样本效率。与基线方法相比，在特征和图像任务中取得了相当或更好的性能，同时减轻了大经验重放缓冲区的负担。

May, 2022

基于图的持续学习

本文提出通过增加可学习的随机图来维护和重放以前样本的小型陈情表记忆，来解决非静态分布中可用数据的持续学习问题的方法。在多个基准数据集上的实证结果表明，该模型持续胜过最近提出的基线方法，用于无任务的持续学习。

Jul, 2020

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

强化连续学习

本论文提出了一种称之为强化连续学习的方法，该方法通过巧妙设计的强化学习策略为每个任务搜索最佳神经架构，不仅能够在防止灾难性遗忘方面有很好的性能，还能够适应新任务。在 MNIST 和 CIFAR-100 数据集的连续分类任务实验中，该方法优于现有的深度网络连续学习替代方案。

May, 2018

单模型之外的持续学习

通过实验验证，本研究探讨了在连续学习过程中使用集成模型的优缺点，提出了一个计算简单、性能优良的算法来解决集成模型带来的高计算成本问题，并解决了连续学习中的遗忘问题。

Feb, 2022

分离记忆编辑与模型更新的解耦继续学习

机器学习系统的持续学习能力受到灾难性遗忘的限制，本文提出一种新的概念性方法来解决持续分类中的问题，通过区分需要记忆的类别特定信息和总结泛化的类别无关知识，并且通过利用类别无关网络来执行分类，提高随时间推移过去任务的准确性，同时支持开放式分类和一次性泛化模型。

Dec, 2023