对抗稀疏教师:利用对抗样本防御基于蒸馏的模型窃取攻击
本文提出并研究了一种名为 Nasty Teacher 的概念,即一种特殊训练的教师网络,可以显著降低通过模仿它学到的学生模型的性能。我们提出了一个简单而有效的算法来构建 Nasty Teacher,称为自我破坏知识蒸馏,通过对数个数据集的实验,证明了这种方法对于标准的 KD 和无数据 KD 都是有效的,首次为模型所有者提供了所需的 KD 免疫力。
May, 2021
本文分析了一种名为 Nasty Teacher 的知识蒸馏防御机制,并提出了两种有效的信息窃取方法,HTC 和 SCM,来提高学习效率,并且探索了相应的防御方法。
Oct, 2022
本文提出了一种多教师对抗鲁棒性蒸馏的方法 (MTARD),以指导模型的对抗训练过程,并通过熵平衡算法和归一化损失平衡算法来解决准确性和鲁棒性之间的平衡问题。实验证明,MTARD 在公共数据集上优于现有的对抗训练和蒸馏方法。
Jun, 2023
通过使用异构教师,我们以 DARHT 的方式开发了一种对抗攻击的防御框架,可以通过蒸馏具有低对抗性示例转移能力的异构教师来实现对抗鲁棒性,在白盒和黑盒方案下,DARHT 在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 数据集上与竞争的对抗训练和蒸馏方法相比,实现了最先进的清洁和鲁棒性准确性。通过对异构教师集进行比较,我们发现利用具有低对抗性示例转移能力的教师可以提高学生模型的鲁棒性。
Feb, 2024
本文探讨了知识蒸馏(KD)中的师生对相对可靠性的问题,提出了一种忠实模仿框架并提供了经验和认证方法来评估学生与其老师的相对校准,同时介绍了一种忠实蒸馏方法,其在 MNIST 和 Fashion-MNIST 数据集上的实验表明了其优越性。
Jun, 2023
本文提出了一种基于教师模型稍加简化后的知识表示的学生友好型知识蒸馏方法(SKD),其包含软化处理和学习简化器,通过联合训练确保知识简化过程与学生模型的训练目标相关,提高了训练效率和准确性。实验结果表明,该方法在 CIFAR-100 和 ImageNet 数据集上取得了最优性能。
May, 2023
无数据知识蒸馏方法 (TA-DFKD)通过为生成器分配宽松的专家角色,而非严格的监督者角色,以更健壮和稳定的性能,实现了在各种教师模型下的蒸馏,并超越了现有的无数据知识蒸馏方法。
Feb, 2024
本文研究知识蒸馏过程中,如何将教师神经网络的鲁棒性传递给学生神经网络,并提出一种称为 Adversarially Robust Distillation (ARD) 的方法。实验证明,采用 ARD 的学生模型在鲁棒性上的表现明显优于采用相同结构的敌对训练网络,并在标准鲁棒性基准测试中超越了当前最先进的方法。
May, 2019