理解和防止增强学习中的能力损失
探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性(non-stationarity)时,其所采用的策略的丧失学习能力现象,通过对不同维度条件下的实验结果,发现这种现象与网络中激活函数的稀疏性相关,本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。
Mar, 2023
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
在神经网络的设计、初始化和优化的过程中,损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术,可以在各种非平稳学习任务中有效地维持网络的可塑性,从而实现高度稳健的学习算法。
Feb, 2024
通过加入通道一致的局部置换技术(CLOP)作为一种新的规则化技术,以解决给模型造成的视觉泛化问题,该技术得到了验证,在 OpenAI Procgen 基准测试中,使用 CLOP 方法训练的强化学习代理比使用其他最先进技术的代理表现出更好的泛化能力。
Apr, 2022
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
Jan, 2022
强化学习面临着应用于现实问题的巨大挑战,主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现,通过在重要领域中显著减轻这一挑战,提高了学习的效率。
Jan, 2024
深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战,其中一个挑战是可塑性损失,即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法,并发现在领域转移情况下可塑性损失普遍存在,许多解决方法在这种情境下失败,相反,一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果,包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。
May, 2024
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017