持续深度强化学习中的可塑性丧失

Mar, 2023

持续深度强化学习中的可塑性丧失

Loss of Plasticity in Continual Deep Reinforcement Learning

Zaheer Abbas, Rosie Zhao, Joseph Modayil, Adam White, Marlos C. Machado

TL;DR探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Abstract

The ability to learn continually is essential in a complex and changing world. In this paper, we characterize the behavior of canonical value-based deep reinforcement learning (RL) approaches under varying degrees of no

deep reinforcement learning non-stationarity atari 2600 concatenated relus continual learning

发现论文，激发创造

关于策略深度强化学习中可塑性损失的研究

深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战，其中一个挑战是可塑性损失，即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法，并发现在领域转移情况下可塑性损失普遍存在，许多解决方法在这种情境下失败，相反，一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果，包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。

May, 2024

深度持续学习中的可塑性维护

本文研究了深度学习系统在持续学习环境下的表现，发现其容易出现失去可塑性现象，影响其对新数据的适应能力，但通过 L2 正则化和重启动某些不常用单元的连续反向传播算法，可以缓解和避免这种现象。

Jun, 2023

重访视觉强化学习中的可塑性：数据、模块和训练阶段

基于神经网络的高性能、高效样本视觉增强强化学习的主要研究领域之一是塑性。本研究通过系统性实证研究揭示了数据增强、评论者的塑性损失、塑性恢复等关键组成部分对塑性的影响，并提出了一种基于评论者塑性水平动态调整回放率来解决高回放率困境的策略，该策略在早期避免了塑性损失，并在后期重用更频繁的情况下提高样本效率。

Oct, 2023

解析神经网络可塑性丧失的原因

在神经网络的设计、初始化和优化的过程中，损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术，可以在各种非平稳学习任务中有效地维持网络的可塑性，从而实现高度稳健的学习算法。

Feb, 2024

理解和防止增强学习中的能力损失

本文研究深度强化学习中的一种现象 —— 容量丧失，提出 Initial Feature Regularization（InFeR）算法，该算法可以有效缓解容量丧失并显著提高稀疏奖励任务中的性能表现。

Apr, 2022

深度强化学习中的可塑性注入

本文引入了塑性注入，一种最小化的干预手段，用于增加网络的可塑性，识别一类 Atari 游戏环境，提出了应对可塑性丧失的未来研究方向，并提供一种可改善强化学习训练效率的工具。塑性注入在 Atari 游戏方面的结果显示，与其他方法相比，在保持计算效率的同时可以获得更强的性能。

May, 2023

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

持续增强学习的策略融合

提出了一种针对深度强化学习中灾难性遗忘问题的方法，名为 “策略整合” 模型，能够在不同时间尺度上改进学习效果，适应环境变化并通过历史经验规范化当前策略，从而提高连续学习的效果，在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。

Feb, 2019

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023