Mar, 2024

一个基于词显著性的修改式对抗攻击文本分类模型的方法

TL;DR本研究提出了一种新颖的针对文本分类模型的对抗攻击方法,即修改的基于词显著性的对抗攻击(MWSAA)。该技术利用词显著性的概念,有针对性地扰乱输入文本,旨在误导分类模型,同时保持语义连贯性。通过改进传统的对抗攻击方法,MWSAA 在逃避分类系统检测方面显著提高了效果。该方法首先通过显著性估计过程识别输入文本中的显著词,这些词对模型的决策过程影响最大。随后,这些显著词会经过经过精心设计的修改,根据语义相似度度量进行指导,以确保修改后的文本保持连贯并保留其原始含义。在各种文本分类数据集上进行的实证评估表明,所提出的方法能够生成成功欺骗最先进的分类模型的对抗性示例。与现有的对抗攻击技术进行的比较分析进一步指出了所提方法在攻击成功率和文本连贯性保持方面的优越性。