不同领域之间的直接蒸馏

Jan, 2024

Direct Distillation between Different Domains

Jialiang Tang, Shuo Chen, Gang Niu, Hongyuan Zhu, Joey Tianyi Zhou...

TL;DR基于知识蒸馏，提出了一种新的单阶段方法 “不同领域之间的直接蒸馏”(4Ds)，通过可学习的适配器和融合 - 激活机制，实现了从教师网络到学生网络的跨领域知识转移，取得了可靠的学生网络性能并超过了现有方法。

Abstract

knowledge distillation (KD) aims to learn a compact student network using knowledge from a large pre-trained teacher network, where both networks are trained on data from the same distribution. However, in practical applications, the student network may be required to perform in a new

knowledge distillation domain adaptation direct distillation domain-invariant knowledge student networks

发现论文，激发创造

尊重知识蒸馏中的转移差距

该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法，用于解决知识蒸馏时两个领域之间数据分布不同的问题，该方法通过对样本的倾向得分估计进行加权，以弥补非独立同分布的数据中低频样本的不足，有效提高了知识蒸馏的准确度。

Oct, 2022

Meta-KD: 跨领域语言模型压缩的元知识蒸馏框架

利用领域间的可转移知识，我们提出了一种元知识蒸馏 (Meta-KD) 框架，将初始的深度预训练模型压缩为体积更小的单域学生模型，并在多个 NLP 任务上进行了实验验证。

Dec, 2020

知识适应：教授如何适应

本研究提出一种基于知识蒸馏的领域自适应技术，针对多源无监督情感分析数据集，在考虑多个教师及其领域专业性的基础上，实现了最优结果，并提出一种可信度度量方法，用于选择高置信度示例及解决单一源情况下的领域适应问题。

Feb, 2017

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

从领域外数据进行蚕合以删选知识

该研究提出了一种基于 MosaicKD 的知识蒸馏方法，可以使用低成本的跨域数据来训练模型，显著优于现有的方法，并在分类和语义分割等任务中得到了验证。

Oct, 2021

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

分布偏移对于使用网络收集的图片进行知识蒸馏很重要

知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法，但现有方法在原始训练数据不可用时往往不可行。为解决这个问题，该文提出了一种名为 “不同分布知识蒸馏” 的新方法（KD$^{3}$），其包括三个组件：从互联网收集训练实例，通过教师网络和学生网络的综合预测动态选择有用的训练实例；对齐两个网络的特征和分类器参数进行知识记忆；新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明，KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。

Jul, 2023

基于响应、特征和关系的知识蒸馏分类

这篇论文提供了一份全面的知识蒸馏调查，包括知识类别、蒸馏方案和算法，以及一些性能比较的实证研究。

Jun, 2023

动态校正知识蒸馏

提出了一种名为 DR-KD 的简单而有效的知识蒸馏框架，通过在传统训练中动态调整目标来使学生变成自身的教师，并在蒸馏信息时进行错误更正，从而消除了笨重的教师模型的必要性，并在需要分类或对象识别的任何深度神经网络训练中均可使用，能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高 Tiny ImageNet 测试准确性 2.65％。

Jan, 2022