May, 2024

超越灾难性遗忘:整合领域特定模型的通用能力

TL;DR领域特定大语言模型在领域特定任务微调后的性能下降,并出现了灾难性遗忘的现象,该论文提出了超越灾难性遗忘的领域特定大语言模型在实际应用中所面临的进一步挑战 —— 即一体化的综合通用能力与领域知识,目标不仅是保留先前习得的通用能力和新领域知识,而且要以一种协调的方式利用这两组技能从而提高领域特定任务的性能。以法律领域为例,我们设计了三组具有实用性的训练和测试任务,并构建了相应的数据集。为了更好地在领域特定情境中整合通用能力,我们引入了 ALoRA,该方法使用了一个 LoRA 上的多头注意力模块,从而实现了从前面的标记直接向当前标记传递信息。这种增强允许表示根据注意力动态地在领域特定知识和通用能力之间切换。对所提出的任务进行了大量实验,结果显示了我们设置的重要性和我们方法的有效性。