Aug, 2023

大型语言模型在连续微调中的灾难性遗忘的实证研究

TL;DR大型语言模型在不断微调的过程中存在灾难性遗忘现象,尤其随着规模的增加,遗忘的严重程度也加剧,然而通过单独解码器模型BLOOMZ与编码器-解码器模型mT0的比较,发现BLOOMZ遗忘较少且保留更多知识,还观察到语言模型能够在不断微调中缓解语言偏见,同时通用指令微调有助于减轻大型语言模型在进一步微调过程中的遗忘现象。