Feb, 2024

PromptKD:通过提示调整深度语言模型来提供适合学生的知识

TL;DR最近大型语言模型(LLMs)的进展引发了对推断成本的担忧,加大了对模型压缩研究的需求。尽管知识蒸馏(KD)是一种突出的方法,但对于生成性语言模型(如 LLMs)的 KD 研究相对较少,而在分类模型的 KD 中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法,我们提出了 PromptKD,一种简单而有效的方法,利用首次使用的提示调整方法在 KD 中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同,PromptKD 通过添加少量的提示符令牌并仅调整提示来实现类似效果,并在学生的指导下进行。在使用 GPT-2 模型系列对遵循指令的数据集进行的广泛实验表明,PromptKD 实现了最先进的性能,并且仅添加了教师参数的 0.0007%作为提示。进一步的分析表明,蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差,从而提高了性能。