相同状态、不同任务：避免干扰的连续增强学习

AAAIJun, 2021

相同状态、不同任务：避免干扰的连续增强学习

Same State, Different Task: Continual Reinforcement Learning without Interference

Samuel Kessler, Jack Parker-Holder, Philip Ball, Stefan Zohren, Stephen J. Roberts

TL;DR本文研究的是连续学习 (CL) 中的关键问题：如何在学习新任务时保留所有先前任务的良好表现。作者提出了一种名为 OWL 的简单方法，基于因子化策略来解决一些任务本质上不兼容的问题，并使用赌博算法进行策略选择，从而在多个强化学习环境中成功实现了连续学习。

Abstract

continual learning (CL) considers the problem of training an agent sequentially on a set of tasks while seeking to retain performance on all previous tasks. A key challenge in CL is catastrophic forgetting, which

continual learning catastrophic forgetting interference reinforcement learning owl

发现论文，激发创造

持续学习的不变表示学习

本文提出了一种名为 IRCL 的伪排练式学习方法，其中通过将类不变表示与条件生成模型分离并与类特定表示共同使用，以学习顺序任务。该方法证明了在两个著名的连续学习基准上都比基于正则化和基于伪排练的方法更好，并成功地解决了灾难性遗忘问题。

Jan, 2021

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

通过注意力引导的增量学习在知识连续中减轻干扰

通过引入紧凑任务注意力来减少任务干扰，Attention-Guided Incremental Learning (AGILE) 在不同的持续学习场景中优化泛化性能，克服了遗忘之前获取的知识的问题。

May, 2024

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

单任务持续离线强化学习

本研究提出了一种新的算法，名为基于经验回放的集成离线强化学习，通过引入多个值网络来学习相同的数据集，并通过值网络的离散程度判断策略是否已经学习，以提高单任务离线强化学习网络的性能。

Apr, 2024

低秩正交子空间下的持续学习

通过在不同的向量子空间中学习任务并在其中保持正交性来最小化干扰，提出了一种新的连续学习的方法，并证明了其对标准分类基准测试的优越性能。

Oct, 2020

解决不间断学习问题的理论研究

研究表明，类增量学习 (CIL) 的问题可以分解为两个子问题：任务内预测 (WP) 和任务 ID 预测 (TP)，其中 TP 与分布外检测 (OOD) 相关联。该研究的关键结论是，无论是否通过 CIL 算法显式或隐式定义 WP 和 TP 或 OOD 检测，优秀的 WP 和 TP 或 OOD 检测都对于良好的 CIL 表现是必要且充分的，其中 TIL 就是 WP。基于理论结果，还设计了新的 CIL 方法，其在 CIL 和 TIL 两个设置中性能均优于强基线。

Nov, 2022

强化连续学习

本论文提出了一种称之为强化连续学习的方法，该方法通过巧妙设计的强化学习策略为每个任务搜索最佳神经架构，不仅能够在防止灾难性遗忘方面有很好的性能，还能够适应新任务。在 MNIST 和 CIFAR-100 数据集的连续分类任务实验中，该方法优于现有的深度网络连续学习替代方案。

May, 2018

最大干扰检索的在线连续学习

该论文探讨了在机器学习系统中，面对一个不断涌现的数据流的情况下，通过回放的方法来控制采样记忆，从而提供全新的方案来解决单通道数据训练面临的挑战，并通过多个标准基准测试，达到了与或超过现有最先进技术的表现。

Aug, 2019