Apr, 2024
基于知识蒸馏的模型提取攻击:使用私有对联解释
Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations
Fatima Ezzeddine, Omran Ayoub, Silvia Giordano
TL;DR研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。