强制提示下的无数据知识蒸馏提升
该研究提出了一种新的度量方法和PANDA方法来解决预训练语言模型中的prompt转移问题,PANDA方法使用知识蒸馏技术来迁移源prompt中的知识到目标prompt中,从而避免源知识的灾难性遗忘。实验证明,该方法在各种PLM尺度场景下的性能均优于传统的prompt转移方法和模型调参方法。
Aug, 2022
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个PT的词级KD,从而有效地压缩模型。
May, 2023
本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在NLI任务中的性能,在out-of-distribution方面的表现超过以前的方法。通过Distilled Minority Upsampling来鲁棒性提高了SNLI-hard的表现。
May, 2023
本文提出了一种名为MiniLLM的方法,该方法利用Kullback-Leibler散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了MiniLLM模型的性能表现更佳。
Jun, 2023
提出了一种新的DFKD框架,即DFKD-T^3,该框架将预训练的生成语言模型作为可控数据生成器用于模型压缩,实现了端到端可学习的文本转换框架,通过改善特异性和多样性提高了蒸馏性能,并在情感分析、语言可接受性和信息提取等各种下游任务中展示出卓越的性能,此外,生成的文本可直接用于蒸馏其他语言模型,超过了SOTA方法,在一般的DFKD场景中更具吸引力。
Nov, 2023
通过将已知分布近似为去偏的目标领域的真实分布,并从近似分布中均匀采样一定的代表性特征,生成PLMs的最终提示,我们的方法在基准测试中实现了最先进的性能。
Jan, 2024
最近大型语言模型(LLMs)的进展引发了对推断成本的担忧,加大了对模型压缩研究的需求。尽管知识蒸馏(KD)是一种突出的方法,但对于生成性语言模型(如LLMs)的KD研究相对较少,而在分类模型的KD中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法,我们提出了PromptKD,一种简单而有效的方法,利用首次使用的提示调整方法在KD中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同,PromptKD通过添加少量的提示符令牌并仅调整提示来实现类似效果,并在学生的指导下进行。在使用GPT-2模型系列对遵循指令的数据集进行的广泛实验表明,PromptKD实现了最先进的性能,并且仅添加了教师参数的0.0007%作为提示。进一步的分析表明,蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差,从而提高了性能。
Feb, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024
这篇论文介绍了一种名为知识蒸馏提示学习的方法,通过无监督知识蒸馏从更强大的模型中提取知识,以提高基于提示学习技术的视觉-语言模型在零样本领域泛化、跨数据集泛化以及基于新类的零样本泛化问题上的推广能力。
Jul, 2024
本研究解决了传统数据无关知识蒸馏(DFKD)方法在合成训练数据中缺乏多样性和分布差异的问题。我们提出了一种创新的多样化扩散增强(DDA)方法,并通过自我监督增强生成具有相似分布和可控变化的数据样本。实验结果表明,该方法在多种网络配置下优于现有的DFKD技术,具有显著的性能提升。
Oct, 2024