Jul, 2021

MEGEX:基于梯度的可解释人工智能无数据模型提取攻击

TL;DR本文提出了 MEGEX,针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数,可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明,在 SVHN 和 CIFAR-10 数据集上,给定 200 万和 2000 万个查询,我们提出的方法可以重构高准确度的模型,分别是受害模型准确度的 0.97 倍和 0.98 倍,这暗示着模型的可解释性和难以窃取之间存在折衷。