Jul, 2023

可解释性与透明度驱动的文本对抗样本检测和转换 (IT-DT)

TL;DR本研究提出了一种名为 IT-DT 的框架,它关注于解释性和透明性来检测和转换文本对抗性示例,以改善 Transformer-based 文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测,在识别对抗分类和确定模型漏洞方面具有显著效果。在转换阶段,IT-DT 利用预训练的嵌入和模型反馈来生成针对扰动单词的最佳替换,帮助将对抗示例转化为非对抗,从而保持文本的意义和模型预期行为一致。IT-DT 框架通过人工专家的参与提高透明度,增强复杂情况下的决策能力。