Apr, 2024

基于知识蒸馏的模型提取攻击:使用私有对联解释

TL;DR研究探讨了机器学习模型解释与攻击的关系,并提出了基于知识蒸馏的替代模型提取方法和添加差分隐私的对抗性解释生成方法。实验结果表明,添加隐私保护会影响解释器的性能和生成的对抗性解释的质量,使攻击性能降低。