GOLD: 通过基于超出分布引导的语言数据生成进行的泛化知识蒸馏

Mar, 2024

GOLD: 通过基于超出分布引导的语言数据生成进行的泛化知识蒸馏

GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation

Mohsen Gholami, Mohammad Akbari, Cindy Hu, Vaden Masrani, Z. Jane Wang...

TL;DR基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD，一种任务无关的数据生成和知识蒸馏框架，通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。

Abstract

knowledge distillation from LLMs is essential for the efficient deployment of language models. Prior works have proposed data generation u

knowledge distillation language models data generation out-of-distribution-guided feedback mechanism generalizability

发现论文，激发创造

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

针对自回归序列模型的广义知识蒸馏

本论文提出了一种推广的知识蒸馏方法，旨在解决在训练和生成阶段输出序列之间的差异，并通过优化替代的发散方法来处理模型不充分的问题。实验证明，Generalized Knowledge Distillation (GKD) 在压缩生成语言模型时表现优异。

Jun, 2023

多层知识蒸馏用于文本领域中的外部分布检测

本研究实现了一种多级知识蒸馏方法，将自监督学习与基于语言模型的强制学习相结合，以生成新颖的 OoD 检测方案，并在多个基准数据集上实现了最新的性能。

Nov, 2022

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

GKD: 一种大规模预训练语言模型的通用知识蒸馏框架

提出 GKD 框架，支持在内存受限的 GPU 上使用各种蒸馏方法，以支持至少 100B 规模的 PLMs 的蒸馏，可在单个框架内轻松切换和组合不同的蒸馏方法。

Jun, 2023

压缩具有外部分布泛化能力的大型视觉语言模型

大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向，本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型，提出了两个原则来增强学生模型在开放词汇分布下的泛化能力，并在开放词汇分布下的分类任务中取得了显著改进。

Jul, 2023

中间层和标签真的必要吗？通用语言模型蒸馏方法

该研究提出了一种通用语言模型压缩方法（GLMD），该方法通过执行两个阶段的词汇预测压缩和词汇量压缩来消除模型之间的维度和结构约束，同时不需要标记数据集，并在 SuperGLUE 基准上超过最佳方法的平均得分 3%。

Jun, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

ELAD：解释引导的大型语言模型主动蒸馏

通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Feb, 2024