关于策略深度强化学习中可塑性损失的研究

May, 2024

关于策略深度强化学习中可塑性损失的研究

A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning

Arthur Juliani, Jordan T. Ash

TL;DR深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战，其中一个挑战是可塑性损失，即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法，并发现在领域转移情况下可塑性损失普遍存在，许多解决方法在这种情境下失败，相反，一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果，包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。

Abstract

continual learning with deep neural networks presents challenges distinct from both the fixed-dataset and convex continual learning regime

continual learning deep neural networks plasticity loss mitigation methods on-policy deep rl

发现论文，激发创造

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

深度持续学习中的可塑性维护

本文研究了深度学习系统在持续学习环境下的表现，发现其容易出现失去可塑性现象，影响其对新数据的适应能力，但通过 L2 正则化和重启动某些不常用单元的连续反向传播算法，可以缓解和避免这种现象。

Jun, 2023

解析神经网络可塑性丧失的原因

在神经网络的设计、初始化和优化的过程中，损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术，可以在各种非平稳学习任务中有效地维持网络的可塑性，从而实现高度稳健的学习算法。

Feb, 2024

深度强化学习中的可塑性注入

本文引入了塑性注入，一种最小化的干预手段，用于增加网络的可塑性，识别一类 Atari 游戏环境，提出了应对可塑性丧失的未来研究方向，并提供一种可改善强化学习训练效率的工具。塑性注入在 Atari 游戏方面的结果显示，与其他方法相比，在保持计算效率的同时可以获得更强的性能。

May, 2023

重访视觉强化学习中的可塑性：数据、模块和训练阶段

基于神经网络的高性能、高效样本视觉增强强化学习的主要研究领域之一是塑性。本研究通过系统性实证研究揭示了数据增强、评论者的塑性损失、塑性恢复等关键组成部分对塑性的影响，并提出了一种基于评论者塑性水平动态调整回放率来解决高回放率困境的策略，该策略在早期避免了塑性损失，并在后期重用更频繁的情况下提高样本效率。

Oct, 2023

通过谱正则化实现持续学习

神经网络的塑性缺失意味着在学习过程中网络训练变得更加困难。我们通过改进初始化技术、提出新的正则化策略以及保持梯度多样性来改善持续学习，并证明这些替代技术在不同的监督学习任务和模型结构上能够提高持续学习性能。

Jun, 2024

曲率解释了塑性丧失

神经网络的可塑性丧失是一种现象，其能力从新的经验中学习受到影响。本文提供了关于可塑性丧失的一致解释，认为在训练过程中神经网络方向的曲率减少导致了可塑性的丧失。通过对多个连续监督学习问题进行系统的实证研究，我们发现曲率减少与可塑性丧失同时或之前发生，同时证明了以前的解释无法解释所有情况下的可塑性丧失。最后，我们展示了可以缓解可塑性丧失的正则化方法也能保持曲率，提出了一种简单的分布正则化方法，在考虑的问题设置中被证明是有效的。

Nov, 2023

通过再生规范化维持可塑性

通过将 L2 正则化引入损失函数实现的 L2 Init 方法，在持续学习中保持可塑性，处理非稳态数据流时有效，减少参数大小并维持高的特征级别。

Aug, 2023

用于分析持续学习者的新度量标准

在连续流数据的情景中，深度神经网络在解决多个分类任务时，面临着保持旧任务知识同时学习新任务的挑战。本研究分析了当前度量方法的局限性，发现了新任务引起的遗忘问题，并提出了一套考虑任务难度增加的新度量方法，实验证明这些度量方法能够提供有关模型在连续学习环境中平衡稳定性和可塑性的新见解。

Sep, 2023

连续强化学习中过拟合和泛化现象的剖析

本研究针对连续域深度强化学习方法中的过拟合问题进行了探讨，包括如何诊断及预防过拟合，增加训练多样性等，对强化学习领域的研究人员和实践者提出了实用观察。

Jun, 2018