Jul, 2023

分析对可解释机器学习的敌对样本的影响

TL;DR本文分析对文本分类问题中的解释模型造成的对抗攻击的影响,包括开发一个基于机器学习的分类模型,引入对抗性扰动来理解分类性能,并在攻击之前和之后分析和解释模型的可解释性。