PromptKD：通过提示调整深度语言模型来提供适合学生的知识

Feb, 2024

PromptKD：通过提示调整深度语言模型来提供适合学生的知识

PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning

Gyeongman Kim, Doohyuk Jang, Eunho Yang

TL;DR最近大型语言模型（LLMs）的进展引发了对推断成本的担忧，加大了对模型压缩研究的需求。尽管知识蒸馏（KD）是一种突出的方法，但对于生成性语言模型（如LLMs）的KD研究相对较少，而在分类模型的KD中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法，我们提出了PromptKD，一种简单而有效的方法，利用首次使用的提示调整方法在KD中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同，PromptKD通过添加少量的提示符令牌并仅调整提示来实现类似效果，并在学生的指导下进行。在使用GPT-2模型系列对遵循指令的数据集进行的广泛实验表明，PromptKD实现了最先进的性能，并且仅添加了教师参数的0.0007％作为提示。进一步的分析表明，蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差，从而提高了性能。

Abstract

Recent advancements in large language models (LLMs) have raised concerns about inference costs, increasing the need for research into model compression. While →

发现论文，激发创造

知识化提示微调：将知识融入文本分类的提示语生成器

本文关注于将外部知识融入语言模型的提示操作，形成知识型提示微调，以提高和稳定性能，实验证明其在评论分类任务中有效。

Aug, 2021

预训练语言模型的动态知识蒸馏

本文研究知识蒸馏的动态方法是否能根据学生模型的能力，对三个方面进行调整，包括教师模型的采用，数据选择和蒸馏目标的调整，实验结果表明，动态知识蒸馏是有前途的，并提供了关于更有效KD方法的未来方向的讨论。

Sep, 2021

强制提示下的无数据知识蒸馏提升

该研究提出PromptDFD，一种基于提示的数据无关知识蒸馏法，利用一个预训练的生成模型提供语言先验知识，进一步提高数据合成的质量，并在蒸馏性能上取得了显著的改进。

May, 2022

大型语言模型的知识蒸馏

本文提出了一种名为MiniLLM的方法，该方法利用Kullback-Leibler散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了MiniLLM模型的性能表现更佳。

Jun, 2023

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。

Feb, 2024

EntGPT：将生成式大型语言模型与知识库进行链接

通过实体消歧任务，我们使用三步硬提示方法探索大型语言模型 (LLM) 的性能，改进模型的原始性能并与现有方法进行比较，以提高模型的知识建模和准确性。

Feb, 2024

PromptKD: 无监督的视觉语言模型提示蒸馏

在这篇论文中，我们介绍了一种无监督域提示蒸馏框架，通过使用未标记的领域图像进行提示驱动的模仿，旨在将更大的教师模型的知识转移给轻量级目标模型。

Mar, 2024

通过无监督知识蒸馏提高学得提示的零样本推理能力

这篇论文介绍了一种名为知识蒸馏提示学习的方法，通过无监督知识蒸馏从更强大的模型中提取知识，以提高基于提示学习技术的视觉-语言模型在零样本领域泛化、跨数据集泛化以及基于新类的零样本泛化问题上的推广能力。

Jul, 2024

MiniPLM：预训练语言模型的知识蒸馏

本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架，采用离线教师模型推理，优化了训练数据分布，提高了学生模型的知识获取能力。实验表明，MiniPLM在多个下游任务上显著提升了学生模型的性能，提高了语言建模能力，并降低了预训练计算需求。

Oct, 2024

MiniPLM：用于预训练语言模型的知识蒸馏

本研究解决了预训练语言模型(KD)过程中效率、灵活性和有效性的问题。我们提出了MiniPLM框架，通过优化教师模型的知识提高训练数据的分布，以实现高效的离线推理和跨模型家族的知识蒸馏，并增强小模型的能力与知识多样性。实验表明，MiniPLM显著提升了学生模型在多个下游任务上的表现，同时减少了预训练计算量。

Oct, 2024