TL;DR深度神经网络在敏感应用领域(如医疗保健和安全)中的使用日益增多,了解这些模型能推断出什么样的敏感信息是必要的。本研究探讨了当从模型 API 中删除领域信息是否能保护模型免受攻击,并提出了自适应领域推断攻击(ADI)方法,通过建立概念层次结构和调整未知训练数据中叶子概念出现的可能性,成功地提取了部分训练数据并改善了模型反转攻击的性能。
Abstract
As deep neural networks are increasingly deployed in sensitive application
domains, such as healthcare and security, it's necessary to understand what
kind of sensitive information can be inferred from these mode