深度强化学习中的可塑性注入

May, 2023

Deep Reinforcement Learning with Plasticity Injection

Evgenii Nikishin, Junhyuk Oh, Georg Ostrovski, Clare Lyle, Razvan Pascanu...

TL;DR本文引入了塑性注入，一种最小化的干预手段，用于增加网络的可塑性，识别一类 Atari 游戏环境，提出了应对可塑性丧失的未来研究方向，并提供一种可改善强化学习训练效率的工具。塑性注入在 Atari 游戏方面的结果显示，与其他方法相比，在保持计算效率的同时可以获得更强的性能。

Abstract

A growing body of evidence suggests that neural networks employed in deep reinforcement learning (RL) gradually lose their plasticity, the ability to learn from new data; however, the analysis and mitigation of this phenomenon is hampered by the complex relationship between plasticity, exploration, and performance in RL. This paper introduces →

plasticity injection deep reinforcement learning performance plateau computational efficiency atari environments

发现论文，激发创造

关于策略深度强化学习中可塑性损失的研究

深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战，其中一个挑战是可塑性损失，即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法，并发现在领域转移情况下可塑性损失普遍存在，许多解决方法在这种情境下失败，相反，一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果，包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。

May, 2024

解析神经网络可塑性丧失的原因

在神经网络的设计、初始化和优化的过程中，损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术，可以在各种非平稳学习任务中有效地维持网络的可塑性，从而实现高度稳健的学习算法。

Feb, 2024

重访视觉强化学习中的可塑性：数据、模块和训练阶段

基于神经网络的高性能、高效样本视觉增强强化学习的主要研究领域之一是塑性。本研究通过系统性实证研究揭示了数据增强、评论者的塑性损失、塑性恢复等关键组成部分对塑性的影响，并提出了一种基于评论者塑性水平动态调整回放率来解决高回放率困境的策略，该策略在早期避免了塑性损失，并在后期重用更频繁的情况下提高样本效率。

Oct, 2023

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

可微可塑性：使用反向传播训练可塑神经网络

利用突触可塑性，采用梯度下降算法优化反馈网络的连接权重和可塑性，使得大型反馈可塑网络可以学习、记忆、重构以及元学习各类任务。

Apr, 2018

深度持续学习中的可塑性维护

本文研究了深度学习系统在持续学习环境下的表现，发现其容易出现失去可塑性现象，影响其对新数据的适应能力，但通过 L2 正则化和重启动某些不常用单元的连续反向传播算法，可以缓解和避免这种现象。

Jun, 2023

使用 Dueling Q-Learning 和 Hebbian Plasticity 学习玩 Atari 游戏

该研究利用先进的深度强化学习架构训练神经网络代理在 Atari 游戏中进行游戏。使用深度 Q 网络和分离 Q 网络等先进技术训练高效代理，并分析了基于可塑性的神经网络在该场景中的可行性以及它们在自适应学习环境中的生命周期学习特性。该研究对于未来的工作可能提供有价值的见解和方向。

May, 2024

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

随机网络中基于赫比塞塑性的元学习

受生物神经元可塑性启发，我们提出了一种搜索方法，通过寻找突触特异的赫比学习规则，使网络能在智能体的生命周期内持续自组织其权重，从而实现在一些强化学习任务中取得成功，同时对多种感官模态处理方式具有适应性。

Jul, 2020

Backpropamine: 使用可微神经调节可塑性训练自修改神经网络

本文研究表明，神经可塑性的神经调节可被不同方式处理，并表明这种可塑性神经调节在神经网络训练上有广泛应用，可提高神经网络在强化学习和监督学习任务中的性能。

Feb, 2020