构建一个用于可扩展连续学习的策略子空间

ICLRNov, 2022

构建一个用于可扩展连续学习的策略子空间

Building a Subspace of Policies for Scalable Continual Learning

Jean-Baptiste Gaya, Thang Doan, Lucas Caccia, Laure Soulier, Ludovic Denoyer...

TL;DR本文介绍了一种基于 Continual Subspace of Policies 的自适应增量学习方法，使得机器人能够不断学习适应一系列任务，避免过多的模型大小或随着任务数量的增加导致性能下降的问题。实验表明该方法有效，没有出现遗忘现象，并且在 Brax（运动）和 Continual World（操作）两个领域的多个任务上表现较好。

Abstract

The ability to continuously acquire new knowledge and skills is crucial for autonomous agents. Existing methods are typically based on either fixed-size models that struggle to learn a large number of diverse behaviors, or growing-size models that scale poorly with the number of tasks.

autonomous agents continuous learning reinforcement learning continual subspace of policies positive transfer

发现论文，激发创造

识别政策梯度子空间

通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Jan, 2024

子空间蒸馏的持续学习

持续学习中保护之前学习到的知识，同时学习新任务的最终目标。为了减轻对先前知识的遗忘，我们提出了一种新的知识蒸馏技术，它考虑了神经网络的潜在 / 输出空间的流形结构，在学习新任务时将数据流形近似为一阶，并利用线性子空间来建模结构并保持神经网络的知识，从而降低持续学习中的灾难性遗忘。我们还讨论并展示了如何采用我们提出的方法来解决分类和分割问题。在实证上，我们观察到我们提出的方法在包括 Pascal VOC 和 Tiny-Imagenet 在内的几个具有挑战性的数据集上优于各种连续学习方法。此外，我们展示了如何将所提出的方法与现有的学习方法无缝结合，以提高它们的性能。本文的代码将在此 https URL 处提供。

Jul, 2023

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

持续增强学习的策略融合

提出了一种针对深度强化学习中灾难性遗忘问题的方法，名为 “策略整合” 模型，能够在不同时间尺度上改进学习效果，适应环境变化并通过历史经验规范化当前策略，从而提高连续学习的效果，在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。

Feb, 2019

CoSCL: 小型持续学习者的合作比大型学习者更加强大

本文研究了在环境改变时如何使模型具有可持续发展能力，在理论层面上证明了增量学习的可行性，并提出了一种新的模型架构 ——Cooperation of Small Continual Learners (CoSCL)，该模型使用一组独立的子网络来学习所有的任务，有助于提高模型的泛化能力和记忆稳定性，并取得了新的最优性能。

Jul, 2022

低秩正交子空间下的持续学习

通过在不同的向量子空间中学习任务并在其中保持正交性来最小化干扰，提出了一种新的连续学习的方法，并证明了其对标准分类基准测试的优越性能。

Oct, 2020

梯度相关子空间学习对抗灾难性遗忘

通过引入梯度相关子空间学习（GCSL）技术，本文介绍了一种减少增量类学习中灾难性遗忘的新方法，该方法检测受以前任务影响最小的权重的子空间，并将权重投影到该子空间进行新任务的训练，可适用于给定网络架构的一个或多个层，而且该子空间的大小可以在不同的层和任务之间进行调整。

Mar, 2024

多阶段强化学习任务的协作策略开发

本文提出了合作连续策略（CCP) 方法，可以让连续的代理合作解决长时间跨度的多阶段任务，在多个测试领域中，该方法成功地超越了一组简单策略，单一代理以及另一个顺序 HRL 算法。

May, 2022

使用连续内存状态学习深度神经网络策略

通过内部记忆的方法，学习适用于高维连续系统（如机器人操纵器）的策略，通过把记忆状态加到系统的状态和动作空间中，使用有监督学习方法 Guided Policy Search 分解策略搜索问题，并通过轨迹优化和监督学习相结合的方式获得具有有效记忆和回忆策略的复杂策略

Jul, 2015

子目标模型的目标空间规划

本文介绍了一种新的基于模型的强化学习方法来使用背景计划：将（近似）动态规划更新和无模型更新混合，类似于 Dyna 架构。我们通过将背景规划限制在一组（抽象）子目标上，并仅学习本地的、子目标条件模型的方法来避免高内存和计算使用率的不足，并证明了我们的 GSP 算法在各种情况下可以比 Double DQN 基线学习得更快。

Jun, 2022