ICLRMar, 2024

应对连续学习中的可塑性丧失和灾难性遗忘

TL;DR深度表示学习方法在持续学习中面临着有用单元的灾难性遗忘和可塑性损失的困扰。本文介绍了基于效用的扰动梯度下降(UPGD)作为一种新的表示持续学习方法,通过梯度更新和扰动相结合的方式,在保护有用单元免受遗忘的同时,对不太有用的单元施加更大的修改来恢复其可塑性。在具有数百个非静态性和未知任务边界的连续学习问题中,我们证明了现有的许多方法都存在至少一种问题,主要表现为在任务上的准确性下降。相反,UPGD 在所有问题上继续提高性能,并超越或与所有方法竞争。最后,通过使用 PPO 进行扩展的强化学习实验,我们证明了在初始学习后 Adam 表现出的性能下降,而 UPGD 通过解决连续学习的两个问题来避免这种下降。