通过语言引导知识蒸馏的轻量级模型预训练

Jun, 2024

通过语言引导知识蒸馏的轻量级模型预训练

Lightweight Model Pre-training via Language Guided Knowledge Distillation

Mingsheng Li, Lin Zhang, Mingzhen Zhu, Zilong Huang, Gang Yu...

TL;DR本论文研究小型模型的预训练问题，提出了一种名为 Language-Guided Distillation (LGD) 的新方法，利用语言指导来帮助在大型网络和小型模型之间传递知识，实现优于现有方法的性能，验证了在分类、检测和分割等多个下游任务中的卓越表现。

Abstract

This paper studies the problem of pre-training for small models, which is essential for many mobile devices. Current state-of-the-art methods on this problem transfer the representational knowledge of a large net

pre-training small models language-guided distillation textual semantics bank visual semantics bank

发现论文，激发创造

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

中间层和标签真的必要吗？通用语言模型蒸馏方法

该研究提出了一种通用语言模型压缩方法（GLMD），该方法通过执行两个阶段的词汇预测压缩和词汇量压缩来消除模型之间的维度和结构约束，同时不需要标记数据集，并在 SuperGLUE 基准上超过最佳方法的平均得分 3%。

Jun, 2023

大型语言模型与图神经网络相遇于知识蒸馏

通过使用 LinguGKD 框架，将大型语言模型作为教师模型和图神经网络作为学生模型，通过设计的节点分类提示来调过教师 LLM 的 Hierarchically 学习到的节点特征和学生 GNN 在潜在空间的对齐，并采用层自适应对比学习策略，提高了学生 GNN 的预测准确性和收敛速度，同时提供了更快的推理速度和更少的计算和存储需求。

Feb, 2024

微型语音增强的两步知识蒸馏

借助知识蒸馏技术，我们提出了一种新的两步法来压缩 Tiny 语音增强模型，其中包括先用知识蒸馏目标进行预训练，然后切换到完全监督训练模式，同时提出了一种新的细粒度相似性保持 KD 损失函数，该方法在高压缩和低信噪比条件下表现出突出的改进，相对于基线，在输入信噪比为 - 5dB 和 63 倍压缩的情况下，信噪失真比分别提高了 0.9dB 和 1.1dB。

Sep, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023

GKD: 一种大规模预训练语言模型的通用知识蒸馏框架

提出 GKD 框架，支持在内存受限的 GPU 上使用各种蒸馏方法，以支持至少 100B 规模的 PLMs 的蒸馏，可在单个框架内轻松切换和组合不同的蒸馏方法。

Jun, 2023

多层知识蒸馏用于文本领域中的外部分布检测

本研究实现了一种多级知识蒸馏方法，将自监督学习与基于语言模型的强制学习相结合，以生成新颖的 OoD 检测方案，并在多个基准数据集上实现了最新的性能。

Nov, 2022

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

轻量级自我知识蒸馏与多源信息融合

提出了一种利用多源信息进行自知识蒸馏的轻量级框架，其中包括反向引导方法和形状正则化方法，其在各种数据集和模型上的综合实验中表现优于基线和最先进的自知识蒸馏方法，同时具有计算效率和鲁棒性。

May, 2023