DisWOT: 无需训练的蒸馏学生架构搜索

CVPRMar, 2023

DisWOT: 无需训练的蒸馏学生架构搜索

DisWOT: Student Architecture Search for Distillation WithOut Training

Peijie Dong, Lujun Li, Zimian Wei

TL;DR本文提出了一种名为 DisWOT 的新方法，使用进化算法，在没有进行训练的情况下，以教师神经网络的相似度为依据来搜索出最优的学生神经网络结构，并且在知识蒸馏阶段大幅提高了模型性能。实验结果表明，该方法在不同的搜索空间中均取得了最先进的成果。

Abstract

knowledge distillation (KD) is an effective training strategy to improve the lightweight student models under the guidance of cumbersome teachers. However, the large architecture difference across the teacher-student pairs limits the distillation gains. In contrast to previous

knowledge distillation student model adaptive distillation evolutionary algorithm training-free

发现论文，激发创造

利用神经架构搜索实现 Oracle 知识蒸馏

提出了一种新的知识蒸馏框架，利用神经架构搜索技术和神经网络来学习深度神经网络教师模型以获得高效的学生模型。该方法通过减少教师和学生之间的模型容量差距，从而最大化从教师模型进行蒸馏的收益，我们在基于 CIFAR-100 和 TinyImageNet 的图像分类数据集上进行了广泛的实验，并通过神经架构搜索技术发现新的学生模型，其在准确性和内存使用上都比教师模型表现更好。

Nov, 2019

寻找更好的学生学习精炼知识

本文提出使用 L1 范数优化从教师网络选取子图作为学生来自动搜索最优学生架构进行知识蒸馏，并在 CIFAR 数据集上验证，实验表明相比手动指定学生结构，学习得到的学生模型性能更好，并且对该学生模型进行可视化和理解。

Jan, 2020

知识蒸馏的师生架构：综述

通过教师 - 学生架构，本综述对多种知识蒸馏目标进行了广泛的探索和总结，包括知识压缩、知识扩展、知识适应和知识增强等方面，为行业从业人员和学术界提供有关教师 - 学生架构的宝贵见解和指导。

Aug, 2023

用于语言模型中有效师生知识迁移的神经结构搜索

提出了使用神经架构搜索（NAS）来寻找最佳学生模型进行知识蒸馏的 KD-NAS 模型，该模型检索出与自然语言任务关联的顶级候选架构，然后在完整的下游任务培训集上提取架构，获得与手工制作的学生模型相当的性能，在 GPU 延迟方面却以 15％的速度提升（CPU 方面则以 20％的速度提升）。

Mar, 2023

从搜索到精炼：珍珠遍布各处，却不见双眸

该论文提出一种基于神经网络结构搜索的知识蒸馏模型 AKD，可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明 AKD 方法比传统的 NAS 和 KD 方法更有效，在 ImageNet 分类任务和其他任务中都能取得最先进的结果。

Nov, 2019

走向语义图像分割中的可比较知识蒸馏

知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较，揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性，建立了三个数据集和两种学生模型的坚实基线，并提供了大量有关超参数调整的信息。在 ADE20K 数据集上，发现只有两种技术能与我们简单的基线相竞争。

Sep, 2023

Wasserstein 对比表示蒸馏

本文提出了一种融合 Wasserstein 距离和对比学习的知识蒸馏方法 WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Dec, 2020

重新审视面向架构的知识蒸馏：更小的模型和更快的搜索

介绍一种名为 TRADE 的新算法，利用 Trust Region Aware architecture search 快速寻找有效的学生网络结构，并使用 Bayesian optimization 方法优化。实验结果表明，TRADE 算法在知识蒸馏下产生的学生网络结构在性能上显着优于常规 NAS 方法和预定义体系结构。

Jun, 2022

比较性知识蒸馏

在大规模预训练模型时代，知识蒸馏在保持性能的同时，将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而，传统的知识蒸馏假设经常对教师模型进行推理，这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题，本文提出了面向少教师推理知识蒸馏（FTI KD）的方法，旨在减少对教师模型推理的依赖。本文观察到，当前的知识蒸馏技术和最先进的数据增强策略在这种受限环境下效果不佳。我们从强调通过对比学习的教育原则中汲取灵感，提出了比较式知识蒸馏（CKD），它鼓励学生模型理解教师模型对样本解释的微妙差异，并为学生提供额外的学习信号，而无需进行额外的教师调用。此外，我们将 CKD 原理扩展到样本组，从有限的教师调用中实现更高效的学习。在各种实验设置下的实证评估表明，CKD 始终优于最先进的数据增强和知识蒸馏技术。

Nov, 2023

AutoDistil: 面向任务无关的少样本神经架构搜索，用于蒸馏大型语言模型

该篇论文提出了一种名为 AutoDistil 的新 KD 方法，利用 NAS 自动蒸馏出可变成本的压缩模型，该方法使用归纳偏差和技巧将搜索空间分成 K 个紧凑的子空间，并使用每个子空间产生的超级模型进行训练，以在不需要重新训练的情况下进行轻量级搜索，实验表明该方法在 GLUE 基准测试中表现优异。

Jan, 2022