Jan, 2024

DAPT:用于大型语言模型参数高效持续学习的双重注意力框架

TL;DR提出一种新颖的双注意力框架(DAPT),通过双注意力学习和选择模块,对鲁棒性防止灾难性遗忘和促进知识迁移的能力进行了优化。对两个持续学习基准进行了大量实验,证明了DAPT相比于现有的方法在抵抗灾难性遗忘和促进知识迁移方面的优越性。此外,在不同的模型大小(从770M到11B)和未见任务方面,DAPT也表现出优越性。