预训练编码器中蒸馏在缓解后门中的有效性

Mar, 2024

预训练编码器中蒸馏在缓解后门中的有效性

On the Effectiveness of Distillation in Mitigating Backdoors in Pre-trained Encoder

Tingxu Han, Shenghan Huang, Ziqi Ding, Weisong Sun, Yebo Feng...

TL;DR本研究探索了在 SSL 中针对恶意编码器的一种叫作蒸馏的防御方法，蒸馏最初用于监督学习，其目的是从给定模型（即教师网络）中提取知识并传递给另一个模型（即学生网络），现在我们使用它来从被恶意植入的预训练编码器中提取良性知识并传递给一个新的编码器，以获得一个干净的预训练编码器。通过对两种顶级的预训练图像编码器和四种常用的图像分类数据集进行实验研究，我们的实验结果表明，蒸馏可以将攻击成功率从 80.87% 降低至 27.51%，但精度损失为 6.35%。此外，我们研究了蒸馏的三个核心组成部分：教师网络、学生网络和蒸馏损失对性能的影响，通过比较 4 个不同的教师网络、3 个不同的学生网络和 6 种不同的蒸馏损失，我们发现，精调过的教师网络、基于预训练训练的学生网络和基于注意力的蒸馏损失效果最佳。

Abstract

In this paper, we study a defense against poisoned encoders in SSL called distillation, which is a →

defense distillation poisoned encoders backdoor attacks pre-trained image encoders

发现论文，激发创造

基于互信息引导的事先训练编码器后门缓解

本文提出了一种名为 MIMIC 的互信息引导的后门缓解技术，通过知识蒸馏从潜在后门编码器中提取干净的学生编码器，以减轻后门攻击并同时保持编码器性能。在自我监督学习中对两个后门攻击进行的评估表明，MIMIC 可以显著降低攻击成功率，仅利用不到 5% 的干净数据，超过七种最先进的后门缓解技术。

Jun, 2024

利用助教提高防御性蒸馏

该项目研究深度神经网络中的对抗攻击并探讨防御性蒸馏的方法，提出通过引入辅助网络来改善蒸馏模型的鲁棒性，并通过实验证明该方法的有效性及其对模型准确性的影响。

May, 2023

掩蔽自编码器实现高效知识蒸馏

本文研究了从预训练模型中提取知识的潜力，提出了一种基于 Masked Autoencoders 的知识蒸馏框架，通过优化像素重构损失和最小化教师模型和学生模型中间的特征图之间的距离，从而实现计算上的高效率。实验结果表明，与直接蒸馏微调后的模型相比，蒸馏预训练模型可以显著提高下游性能，例如将 MAE 预训练的 ViT-L 蒸馏到一个 ViT-B 中，可以获得 84.0% 的 ImageNet top-1 精度，比直接蒸馏经过微调的 ViT-L 高出 1.2%。

Aug, 2022

基于蒸馏的深度神经网络对抗性扰动防御

本研究介绍了一种防御机制，名为防御蒸馏，用于减少对深度神经网络的对抗样本的影响，并通过理论和实验证明了该机制在培训深度神经网络时具有通用性和鲁棒性。

Nov, 2015

减少、重用、回收：通过蒸馏提高训练效率

本文研究了如何利用蒸馏来提高深度学习模型的训练效率，实验发现，蒸馏在 ResNet-50 和 BERT 模型上可以提高训练速度，尤其是在 BERT 模型初期进行蒸馏可以取得最佳效果。此外，通过对蒸馏方法的一些优化可以进一步提高蒸馏的效率。

Nov, 2022

相似性保持知识蒸馏

本文提出了新型的知识蒸馏损失函数，其通过保留教师神经网络中相似输入的激活模式特征，指导学生神经网络的训练，使其在保留各自的表征空间中，能够准确地保持输入的相似度。实验结果表明了该方法的潜力。

Jul, 2019

重新思考数据集蒸馏中的后门攻击：基于核方法的视角

基于核方法的数据集精简是数据效率提升的一种潜在手段，本研究通过理论研究与实验分析，提出了专门用于数据集精简的两种新的基于理论的触发器模式生成方法，证明了我们的基于优化的触发器设计框架可以有效地实施反向攻击，并验证了使用我们方法开发的触发器在执行弹性反向攻击方面的熟练程度。

Nov, 2023

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

神经网络水印的蒸馏攻击效果及对策

本论文讨论机器学习中的漏洞问题，提出了一种全新的保护版权的方法 ingrain，并进行了大量评估，结果表明 ingrain 相对于既存方法更加有效。

Jun, 2019

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏 (loss) 会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023