Jun, 2024

解锁语言模型中的持续学习能力

TL;DR通过 L1 归一化的输出幅度分布来约束梯度更新过程,我们提出了一种无需回放和任务标签的方法 MIGU(基于幅度的渐进学习梯度更新),以释放语言模型的内在连续学习能力。实验证明 MIGU 对于所有三种语言模型架构(T5,RoBERTa 和 Llama2)普遍适用,在四个连续学习基准测试中,在连续微调和连续预训练设置下,提供了最先进或不相上下的性能。