利用不确定性感知混合进行计算高效的知识蒸馏

Dec, 2020

利用不确定性感知混合进行计算高效的知识蒸馏

Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup

Guodong Xu, Ziwei Liu, Chen Change Loy

TL;DR本文介绍了一种基于不确定性采样和自适应混合的知识蒸馏方法 ——UNIX，该方法可有效降低训练中的计算成本并提高性能，得到了 CIFAR100 和 ImageNet 上的验证。

Abstract

knowledge distillation, which involves extracting the "dark knowledge" from a teacher network to guide the learning of a student network, has emerged as an essential technique for model compression and

knowledge distillation model compression transfer learning uncertainty-aware mixup performance

发现论文，激发创造

教学中的不确定性：释放目标检测知识蒸馏的潜力

提出一种基于特征的知识不确定性蒸馏范式，能够与现有的蒸馏方法无缝集成，通过蒙特卡洛 dropout 技术引入知识不确定性，提高学生模型对潜在知识的探索能力，并在目标检测任务中获得有效性验证。

Jun, 2024

通过改进蒸馏技术实现高效的评估时不确定性估计

该研究旨在通过修改知识蒸馏过程，获取计算有效的深度网络不确定性估计，并在包括以及超出分布样本中实现最先进的不确定性估计。

Jun, 2019

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

黑盒少样本知识蒸馏

本文提出了一种黑盒少样本知识蒸馏方法，使用 MixUp 和条件变分自编码器生成多样的合成图像进行训练，显著优于最新 SOTA 的少 / 零样本 KD 方法用于图像分类任务。

Jul, 2022

从未调校的教师中抽取定性的学生

本文提出一种方法，在通过知识蒸馏传递信息来从教师网络中提高浅层学生网络性能的同时，生成一个校准的学生模型，该方法依赖于数据增强技术的融合并扩展了传统知识蒸馏，因此可用于关系知识蒸馏和对比表示蒸馏，并在 CIFAR-10，CIFAR-100，CINIC-10 和 TinyImageNet 等各种数据集上进行了验证。

Feb, 2023

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

分布偏移对于使用网络收集的图片进行知识蒸馏很重要

知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法，但现有方法在原始训练数据不可用时往往不可行。为解决这个问题，该文提出了一种名为 “不同分布知识蒸馏” 的新方法（KD$^{3}$），其包括三个组件：从互联网收集训练实例，通过教师网络和学生网络的综合预测动态选择有用的训练实例；对齐两个网络的特征和分类器参数进行知识记忆；新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明，KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。

Jul, 2023

自知力蒸馏用于学习模糊性

通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。

Jun, 2024