May, 2020

通过预测纯化来防御模型反演和成员推断攻击

TL;DR本文提出了一种称为净化框架的统一方法来防御神经网络所容易受到的数据推断攻击,并通过敌对学习来专门针对某一攻击方式进行保护。在基准数据集和分类器上进行了评估,结果表明该净化器可以有效防御数据推断攻击,减少成员推断准确性高达 15%,模型反演误差增加 4 倍,并且对置信度分数仅有少量影响。