理解和防止增强学习中的能力损失

ICLRApr, 2022

理解和防止增强学习中的能力损失

Understanding and Preventing Capacity Loss in Reinforcement Learning

Clare Lyle, Mark Rowland, Will Dabney

TL;DR本文研究深度强化学习中的一种现象 —— 容量丧失，提出 Initial Feature Regularization（InFeR）算法，该算法可以有效缓解容量丧失并显著提高稀疏奖励任务中的性能表现。

Abstract

The reinforcement learning (RL) problem is rife with sources of non-stationarity, making it a notoriously difficult problem domain for the application of →

reinforcement learning neural networks non-stationarity capacity loss sparse-reward tasks

发现论文，激发创造

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

解析神经网络可塑性丧失的原因

在神经网络的设计、初始化和优化的过程中，损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术，可以在各种非平稳学习任务中有效地维持网络的可塑性，从而实现高度稳健的学习算法。

Feb, 2024

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

本地特征交换在强化学习中的泛化

通过加入通道一致的局部置换技术（CLOP）作为一种新的规则化技术，以解决给模型造成的视觉泛化问题，该技术得到了验证，在 OpenAI Procgen 基准测试中，使用 CLOP 方法训练的强化学习代理比使用其他最先进技术的代理表现出更好的泛化能力。

Apr, 2022

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

关于策略深度强化学习中可塑性损失的研究

深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战，其中一个挑战是可塑性损失，即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法，并发现在领域转移情况下可塑性损失普遍存在，许多解决方法在这种情境下失败，相反，一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果，包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。

May, 2024

基于中心损失的持续学习正则化

我们提出采用中心损失作为正则化惩罚来保留旧任务的记忆，从而使神经网络能够在学习新任务的同时保持对旧任务的高性能表现。

Oct, 2021

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017