May, 2024

专家混合遇上基于提示的连续学习

TL;DR基于预训练模型的提示式方法在连续学习中与其他解决方案相比,在仅有很少可学习参数且无需内存缓冲区的情况下,展现出了防止灾难性遗忘的强大能力。本研究在理论上分析和解释了提示式学习的有效性,并提出了一种基于非线性残差门机制(NoRGa)的新型门机制,从而在保持参数效率的同时提高了连续学习性能。