Dec, 2021

预训练在终身学习中的作用的实证调查

TL;DR通过调查现有的方法及其在预训练模型上的表现,我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响,因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象,基于这个发现,我们建议联合当前任务的损失和损失基底锐度的优化方法,以在顺序微调期间显式地鼓励更宽的基底,在多种设置中实现与最新技术的性能相当的顺序连续学习,而无需保留随任务数缩放的内存。