May, 2024

关于策略深度强化学习中可塑性损失的研究

TL;DR深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战,其中一个挑战是可塑性损失,即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法,并发现在领域转移情况下可塑性损失普遍存在,许多解决方法在这种情境下失败,相反,一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果,包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。