- CVPR小规模无数据知识蒸馏
通过使用小规模逆置数据进行知识蒸馏,提高训练效率的数据无关知识蒸馏 (SSD-KD) 方法在图像分类和语义分割基准测试中展示了超强的性能和高效的训练。
- 无数据知识蒸馏用于细粒度视觉分类
我们提出了一种名为 DFKD-FGVC 的方法,它扩展了 DFKD 到细粒度视觉分类任务,使用了对抗蒸馏框架、注意力生成器、混合高阶注意力蒸馏和语义特征对比学习,以实现更好的性能表现。
- CVPR数据无关的去卷积知识蒸馏处理分布转移
数据无关知识蒸馏是训练高性能小模型以增强实际部署的有希望的任务,本文提出了一种新颖的因果推断视角来解决在 DFKD 任务中的严重分布偏移问题,并设计了一种基于反向调整的知识蒸馏因果干预框架(KDCI),实验证明了其有效性。
- ICLRAuG-KD:面向领域外知识蒸馏的锚点混合生成
利用不受数据限制的知识蒸馏方法(DFKD),通过不确定性导向和样本特定锚定来解决智能系统在隐私问题、性能退化和合适知识转移方面的挑战。
- AAAI宽容专家的教师:与教师无关的无数据知识蒸馏
无数据知识蒸馏方法 (TA-DFKD)通过为生成器分配宽松的专家角色,而非严格的监督者角色,以更健壮和稳定的性能,实现了在各种教师模型下的蒸馏,并超越了现有的无数据知识蒸馏方法。
- 无数据蒸馏:通过文本到文本迁移的语言模型
提出了一种新的 DFKD 框架,即 DFKD-T^3,该框架将预训练的生成语言模型作为可控数据生成器用于模型压缩,实现了端到端可学习的文本转换框架,通过改善特异性和多样性提高了蒸馏性能,并在情感分析、语言可接受性和信息提取等各种下游任务中展 - 数据驱动高效与有效的无数据知识蒸馏
提出了一种基于嘈杂层生成方法(NAYER)的无数据知识蒸馏技术,能够通过利用含有大量有意义的跨类信息的标签文本嵌入(LTE)作为输入来生成高质量样本,并通过嘈杂层防止模型过度强调受限制的标签信息,从而在保持方法效率的同时促进生成多样样本的方 - 采样与蒸馏:开放世界数据的知识迁移
提出了一种名为数据无关知识蒸馏(DFKD)的新任务,旨在使用仅带有原始训练数据的教师网络训练高性能学生模型。通过自适应采样模块对接近原始数据分布的开放世界数据进行采样,引入低噪声表示以减轻领域漂移并建立多个数据示例的结构化关系来开发数据知识 - 分布偏移对于使用网络收集的图片进行知识蒸馏很重要
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学 - 为无数据学生学习定制合成数据
自适应数据合成(CSD)通过自监督增强辅助任务来估计学生的学习能力,从而实现自适应数据合成,扩大标签与预测之间的交叉熵,为学生模型生成困难样本,证实了该方法的有效性。
- ICML重新审视无数据知识蒸馏及其受污染教师
本文旨在探讨数据无关知识蒸馏的安全问题并提出了 Anti-Backdoor Data-Free KD,这是第一个用于缓解潜在后门被转移的数据无关 KD 方法的防御性插件。
- 针对通用声音分类的无数据知识蒸馏的特征丰富的音频模型反演
本文提出了一种名为 FRAMI 的无数据知识蒸馏框架来进行通用音频分类任务,该方法利用 Mel-spectrograms 生成高质量且具有特征丰富性的音频样本,其在音频分类上的实验表明,通过重用隐藏状态可以显着提升学生模型的准确性。
- CVPR学会在获取知识的同时保持知识:对抗非对抗数据知识蒸馏中的分布偏移
提出一种数据无关知识蒸馏的框架,称为学会保留和获得,通过元学习的方式将知识获取和保留视为元培训和元测试,并确定知识保留和获得任务之间的隐含对齐因素,从而为这两个任务强制实施共同的梯度方向。
- 动量对抗蒸馏:数据无关蒸馏中处理大分布偏移
本文提出一种名为 Momentum Adversarial Distillation (MAD) 的方法,使用演员生成器和 EMA(Exponential Moving Average)生成器的合成样本对学生进行培训,通过保持 EMA 生成 - IJCAI强制提示下的无数据知识蒸馏提升
该研究提出 PromptDFD,一种基于提示的数据无关知识蒸馏法,利用一个预训练的生成模型提供语言先验知识,进一步提高数据合成的质量,并在蒸馏性能上取得了显著的改进。
- AAAI通过生成伪回放实现稳健且资源高效的无数据知识蒸馏
本文提出了一种基于 Variational Autoencoder 的合成数据生成方法,以替代存储和重复合成数据的方式,从而提高基于 Data-Free Knowledge Distillation 方法的神经网络压缩效果,实现机器学习模型 - MAZE: 使用零阶梯度估计的无数据模型窃取攻击
本文提出了一种名为 MAZE 的新型数据无关模型窃取攻击方法,采用零阶梯度估计和生成模型,无需任何数据,能够有效地窃取目标模型。经过四个数据集的评估,MAZE 在规范化克隆准确度方面表现良好,并在克隆准确度、攻击查询和寻求与目标分布更相近的 - AAAIDeGAN: 一种用于从训练分类器中检索代表性样本的数据增强生成对抗网络
本论文提出了一种名为 Data-enriching GAN 的框架,可以利用来自不同领域的数据来提高已经训练好的深度神经网络在无数据和增量学习任务上的表现。
- NIPS深度神经网络的无数据知识蒸馏
提出了一种无需训练集的知识蒸馏方法,仅利用预训练模型释放的一些额外元数据,就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分,并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。