- 基于图的知识探索:通道关系图的多层特征蒸馏
基于图知识的蒸馏方法结合多级特征对齐策略和注意力引导机制,利用谱嵌入的技术将学生模型的特征空间与教师网络的关系和结构复杂性相融合,通过全局视角理解和利用特征集之间的动态关系,从而更准确地模仿教师模型的复杂结构性依赖关系,实验证明该方法在 C - 通过标签修订和数据选择改进知识蒸馏
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
- 基于监督引导的零样本学习:一种无实际数据曝露的协同范式
在这份研究中,我们提出了一种创新的 SG-ZSL 范式,旨在解决数据隐私和模型版权等问题,该范式通过引入教师模型、学生模型和连接两者的生成器来促进高效协作,无需交换模型或敏感数据。在教师模型的指导下,学生模型通过匹配教师模型的性能并探索教师 - 对抗稀疏教师:利用对抗样本防御基于蒸馏的模型窃取攻击
通过在训练数据中结合稀疏输出与对抗样本,以增强教师模型对学生模型的防御,我们的研究引入了一种保护其输出的教师模型的方法,从而减少了对整体性能的影响。
- ACL迈向交叉标记器蒸馏:面向语言模型的通用逻辑蒸馏损失
通过使用基于最优传输的通用对数蒸馏(ULD)损失函数,我们解决了传统方法中教师模型和学生模型需共享分词器的限制,提供了一种跨不同架构和分词器进行蒸馏的有效方法,为蒸馏技术的广泛应用铺平了道路。
- 基于跨模型半监督学习的道路检测的知识蒸馏
知识蒸馏和半监督学习方法相结合的半监督学习知识蒸馏(SSLKD)方法在道路分割应用中表现出显著的学生模型性能提升,超过传统半监督学习方法的效果。
- AAAI合作式知识蒸馏:一种学生无关的方法
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优 - TPD: 通过原则发现和指导增强学生语言模型推理能力
通过基于原则发现的教师 - 学生框架,我们在大型语言模型中有效传递推理能力,并通过对八项推理任务的广泛实验证明,相比于标准的推理提示,TPD 显著提高了学生模型的性能,平均提升了 6.2%。
- 知识蒸馏中肾脏和肝脏肿瘤分割的中间层设计重新思考
知识蒸馏在医学成像任务(如肾脏和肝脏肿瘤分割)中的应用面临挑战,为解决这些问题,我们提出了分层选择性反馈蒸馏(HLFD)方法,通过从中间层到较早层的蒸馏,以及将最终层的知识以特征和像素级别转移到中间层,实现模型从早期层学习更高质量的表示,从 - 黑暗面的知识:基于熵重新加权的知识蒸馏,以实现平衡的知识传递
利用熵重新加权的知识蒸馏 (ER-KD) 方法通过重新调整学生模型的关注点,减少对简单情况的侧重,从而实现在知识传递过程中更加平衡的效果。
- ICLR用于无数据模型窃取的双学生网络
通过对称地训练两个学生模型,提供生成器一种生成样本的标准,使两个学生模型对样本有分歧,这个方法可以间接地估计目标模型的梯度,优化生成器网络的训练目标,并提供更准确的目标模型梯度估计和更好的基准分类数据集准确性。此外,在改进查询效率的同时,我 - 对比式知识融合用于无监督图像分类
知识融合旨在学习一个紧凑的学生模型,以处理多个针对各自任务的教师模型的联合目标。我们提出了一种新颖的对比知识融合(CKA)框架,通过引入对比损失和对齐损失来实现类内凝聚和类间分离,以使学生能够学习多个异构教师自任务的适当决策边界。
- ACL符号链式思考精华提炼:小型模型也能逐步 “思考
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学 - 基于标记级关系图的知识蒸馏
论文提出了一种新的知识蒸馏方法,称为基于 Token 级关系图的知识蒸馏(TRG),它利用了 Token 水平的关联知识,从而实现了在视觉分类任务中比现有技术表现更好的知识迁移效果。
- 不要盲目模仿老师:使用扰动损失进行知识蒸馏
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知 - 深度集体知识蒸馏
DCKD 是一种深度集体知识蒸馏的模型压缩方法,旨在通过丰富的信息让学生模型从老师模型和其他学生模型中获取知识,本文探讨了如何在训练过程中提高类别之间的相关性,实验结果表明该方法在 ImageNet 和 CIFAR-100 数据集上取得了最 - CVPRDisWOT: 无需训练的蒸馏学生架构搜索
本文提出了一种名为 DisWOT 的新方法,使用进化算法,在没有进行训练的情况下,以教师神经网络的相似度为依据来搜索出最优的学生神经网络结构,并且在知识蒸馏阶段大幅提高了模型性能。实验结果表明,该方法在不同的搜索空间中均取得了最先进的成果。
- ICLR学习错误的教训:在知识蒸馏期间插入特洛伊木马
该研究致力于通过利用知识蒸馏过程中的未标记数据,在不引起教师模型明显异常行为的情况下,向学生模型中嵌入木马攻击,从而最终设计出一种可以有效降低学生模型准确性、不改变教师模型性能且在实践中构造高效的 Trojan 攻击。
- 从未调校的教师中抽取定性的学生
本文提出一种方法,在通过知识蒸馏传递信息来从教师网络中提高浅层学生网络性能的同时,生成一个校准的学生模型,该方法依赖于数据增强技术的融合并扩展了传统知识蒸馏,因此可用于关系知识蒸馏和对比表示蒸馏,并在 CIFAR-10,CIFAR-100, - EMNLP通过知识选择改进预训练语言模型的知识蒸馏
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。