AAAIDec, 2022

XRand:差分隐私防御解释引导攻击

TL;DR该研究介绍了一个叫做 XRand 的新的机制来保护基于特征的解释不被恶意利用,该机制使用局部差分隐私来限制攻击者对重要特征的了解。