May, 2024

关于组合性和递增学习的二阶视角

TL;DR对深度预训练模型进行微调最近揭示了其具有组合特性能力,从而使得多个专门模块能任意组合成一个多任务模型。本文通过对损失函数的二阶泰勒近似方法进行理论研究,试图揭示标准非线性网络中组合特性的奥秘,强调了处于预训练盆地内对于实现可组合模块的重要性,并提出了两种双增量训练算法:一种从多个独立模型进行训练的角度,另一种旨在优化整个组合模型。我们测试它们在增量分类任务中的应用,并突出了一些可贵的技能。实际上,增量学习的模块池不仅支持创建有效的多任务模型,还能够进行遗忘和特定任务的专门化。