AutoDistil: 面向任务无关的少样本神经架构搜索，用于蒸馏大型语言模型

Jan, 2022

AutoDistil: 面向任务无关的少样本神经架构搜索，用于蒸馏大型语言模型

AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

Dongkuan Xu, Subhabrata Mukherjee, Xiaodong Liu, Debadeepta Dey, Wenhui Wang...

TL;DR该篇论文提出了一种名为 AutoDistil 的新 KD 方法，利用 NAS 自动蒸馏出可变成本的压缩模型，该方法使用归纳偏差和技巧将搜索空间分成 K 个紧凑的子空间，并使用每个子空间产生的超级模型进行训练，以在不需要重新训练的情况下进行轻量级搜索，实验表明该方法在 GLUE 基准测试中表现优异。

Abstract

knowledge distillation (KD) methods compress large models into smaller students with manually-designed student architectures given pre-specified computational cost. This requires several trials to find a viable s

knowledge distillation neural architecture search compressed students transformer search space computational cost

发现论文，激发创造

用于语言模型中有效师生知识迁移的神经结构搜索

提出了使用神经架构搜索（NAS）来寻找最佳学生模型进行知识蒸馏的 KD-NAS 模型，该模型检索出与自然语言任务关联的顶级候选架构，然后在完整的下游任务培训集上提取架构，获得与手工制作的学生模型相当的性能，在 GPU 延迟方面却以 15％的速度提升（CPU 方面则以 20％的速度提升）。

Mar, 2023

重新审视面向架构的知识蒸馏：更小的模型和更快的搜索

介绍一种名为 TRADE 的新算法，利用 Trust Region Aware architecture search 快速寻找有效的学生网络结构，并使用 Bayesian optimization 方法优化。实验结果表明，TRADE 算法在知识蒸馏下产生的学生网络结构在性能上显着优于常规 NAS 方法和预定义体系结构。

Jun, 2022

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

利用神经架构搜索实现 Oracle 知识蒸馏

提出了一种新的知识蒸馏框架，利用神经架构搜索技术和神经网络来学习深度神经网络教师模型以获得高效的学生模型。该方法通过减少教师和学生之间的模型容量差距，从而最大化从教师模型进行蒸馏的收益，我们在基于 CIFAR-100 和 TinyImageNet 的图像分类数据集上进行了广泛的实验，并通过神经架构搜索技术发现新的学生模型，其在准确性和内存使用上都比教师模型表现更好。

Nov, 2019

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

从搜索到精炼：珍珠遍布各处，却不见双眸

该论文提出一种基于神经网络结构搜索的知识蒸馏模型 AKD，可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明 AKD 方法比传统的 NAS 和 KD 方法更有效，在 ImageNet 分类任务和其他任务中都能取得最先进的结果。

Nov, 2019

带有知识蒸馏的分块监督神经网络架构搜索

本文旨在通过将神经体系结构搜索的大搜索空间模块化为块，以确保潜在的候选架构完全训练，从而降低共享参数引起的表示移位并导致对候选项的正确评级，并且从教师模型中提取体系结构知识来指导我们的块搜索，这显着提高了 NAS 的有效性和效率。

Nov, 2019

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024

寻找更好的学生学习精炼知识

本文提出使用 L1 范数优化从教师网络选取子图作为学生来自动搜索最优学生架构进行知识蒸馏，并在 CIFAR 数据集上验证，实验表明相比手动指定学生结构，学习得到的学生模型性能更好，并且对该学生模型进行可视化和理解。

Jan, 2020