ACLApr, 2019

从白到黑:高效黑盒对抗攻击蒸馏

TL;DR本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络,证明了白盒攻击优化过程所隐含的知识可以被提取并泛化,可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性,扰乱 API 的预测结果,而人类对黄金标签的预测准确率仍然很高。