数据无关知识蒸馏是训练高性能小模型以增强实际部署的有希望的任务,本文提出了一种新颖的因果推断视角来解决在 DFKD 任务中的严重分布偏移问题,并设计了一种基于反向调整的知识蒸馏因果干预框架(KDCI),实验证明了其有效性。
Mar, 2024
提出了一种名为数据无关知识蒸馏(DFKD)的新任务,旨在使用仅带有原始训练数据的教师网络训练高性能学生模型。通过自适应采样模块对接近原始数据分布的开放世界数据进行采样,引入低噪声表示以减轻领域漂移并建立多个数据示例的结构化关系来开发数据知识。在 CIFAR-10、CIFAR-100、NYUv2 和 ImageNet 等广泛实验中,我们的 ODSD 方法实现了最先进的性能,在 ImageNet 数据集上与现有结果相比,准确率提高了 1.50%-9.59%。
Jul, 2023
本篇论文提出了一种基于生成对抗网络的无需真实数据的对抗知识蒸馏框架,用于图结构数据的知识蒸馏,可以有效压缩图模型并在图分类任务中取得更好的性能。
May, 2022
本研究提出了一种创新的知识蒸馏框架,利用生成模型训练轻量级学生模型,通过特征表示和基于生成模型的特征蒸馏阶段,转移基于注意力的特征语义,在视频动作识别任务中显示出显著的性能改进。
Dec, 2023
提出了一种新的 DFKD 框架,即 DFKD-T^3,该框架将预训练的生成语言模型作为可控数据生成器用于模型压缩,实现了端到端可学习的文本转换框架,通过改善特异性和多样性提高了蒸馏性能,并在情感分析、语言可接受性和信息提取等各种下游任务中展示出卓越的性能,此外,生成的文本可直接用于蒸馏其他语言模型,超过了 SOTA 方法,在一般的 DFKD 场景中更具吸引力。
Nov, 2023
无数据知识蒸馏方法 (TA-DFKD)通过为生成器分配宽松的专家角色,而非严格的监督者角色,以更健壮和稳定的性能,实现了在各种教师模型下的蒸馏,并超越了现有的无数据知识蒸馏方法。
Feb, 2024
在智能多媒体分析领域中,超细粒度视觉分类(Ultra-FGVC)在区分更大范畴内的复杂子范畴方面发挥着重要作用。本文提出 CSDNet,这是一个创新框架,通过有效探索对比学习和自我蒸馏来学习专为 Ultra-FGVC 任务设计的判别式表示。CSDNet 包括三个主要模块:子范畴特定的差异解析(SSDP)、动态差异学习(DDL)和子范畴特定的差异传递(SSDT),共同增强深度模型在实例、特征和对数预测层面上的泛化能力。实验结果表明,CSDNet 优于当前最先进的 Ultra-FGVC 方法,强调了其在解决 Ultra-FGVC 任务中的强大效力和适应性。
本文提出了一种被称为无图知识蒸馏(GFKD)的方法,通过建模多元伯努利分布来学习知识传输的图拓扑结构,并使用梯度估计器来优化该框架,该方法适用于处理不同拓扑结构的非网格数据。经过广泛的实验,GFKD 实现了从 GNN 中蒸馏知识的最先进性能,无需训练数据。
May, 2021
使用频率领域的知识蒸馏方法进行密集预测任务时,Frequency Knowledge Distillation(FreeKD)在吸收语义频率上下文、定位像素兴趣点和提供高阶空间增强等方面取得了比基于空间的蒸馏方法更好的效果。
本研究提出了一种快速知识蒸馏 (FKD) 框架来解决知识蒸馏中效率低下的问题,并通过在 ImageNet-1K 和自监督学习任务上的实验展示了其优越性。
Dec, 2021