可解释性与透明度驱动的文本对抗样本检测和转换 (IT-DT)

Jul, 2023

可解释性与透明度驱动的文本对抗样本检测和转换 (IT-DT)

Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT)

Bushra Sabir, M. Ali Babar, Sharif Abuadbba

TL;DR本研究提出了一种名为 IT-DT 的框架，它关注于解释性和透明性来检测和转换文本对抗性示例，以改善 Transformer-based 文本分类器对抗攻击的鲁棒性和可靠性。框架使用技术如注意力映射和模型反馈进行解释性检测，在识别对抗分类和确定模型漏洞方面具有显著效果。在转换阶段，IT-DT 利用预训练的嵌入和模型反馈来生成针对扰动单词的最佳替换，帮助将对抗示例转化为非对抗，从而保持文本的意义和模型预期行为一致。IT-DT 框架通过人工专家的参与提高透明度，增强复杂情况下的决策能力。

Abstract

transformer-based text classifiers like BERT, Roberta, T5, and GPT-3 have shown impressive performance in NLP. However, their vulnerability to adversarial examples poses a security risk. Existing defense methods

transformer-based text classifiers adversarial examples interpretability transparency it-dt

发现论文，激发创造

探究和利用图像转换对抗性检测的影响

本文综述了利用图像转换进行对抗检测的近期进展，并提出了一种名为 AdvJudge 的深度学习方法，通过结合 9 种图像转换的分数来判断对抗性示例，并利用可解释的 AI 工具显示了每种图像转换对对抗检测的贡献。

Jan, 2022

TextBugger：针对现实应用生成对抗性文本

本文探讨了深度学习文本理解中的安全漏洞，提出一种通用的生成对抗性文本的攻击框架 ——TextBugger，其攻击成功率高、难以检测、效率高，可有效用于情感分析等领域。同时，文章提出了一些有效措施以缓解这种攻击，并探讨了未来的发展方向。

Dec, 2018

IDT：双任务对抗攻击用于隐私保护

本研究使用对抗攻击技术改变文本以欺骗隐私分类器，同时保持针对其他任务的分类器预测不变，提出了 IDT 方法，分析辅助及可解释模型的预测结果，以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇，实验证明 IDT 在保护隐私的同时仍保持了文本的实用性，并且在欺骗隐私分类器的任务上优于现有方法。

Jun, 2024

使用 Transformer 评估文本归因的对抗鲁棒性

通过提出 attribution robustness（AR）的概念，使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性，并提出了 TransformerExplanationAttack（TEA）的概念，利用最先进的语言模型，提取单词替换，从而展示了对于几种文本分类架构的实验，证明了 TEA 在提高对上下文敏感性的同时，更加流畅，更不易被察觉。

Dec, 2022

VoteTRANS: 通过在转换的困难标签上投票检测敌对文本，无需训练

本文提出了一种名为 VoteTRANS 的检测方法，通过比较输入文本和其转换的硬标签来检测对抗性文本，无需基于原始数据或对抗数据进行训练，并且在各种最新的攻击、模型和数据集上表现良好。

Jun, 2023

基于词重要性熵的对抗文本检测

本文研究针对自然语言处理（NLP）模型的对抗攻击算法，发现攻击算法主要破坏文本中的单词重要性分布，基于此提出一种新的防御框架 TextDefense，利用目标模型的能力来检测对抗样本，不需要先验知识，并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。

Feb, 2023

DTA: 基于分布变换的受查询限制场景攻击

该论文通过利用对抗示例的分布特征，以困难标签黑盒设置下的条件似然函数为依据建立统计映射，从而提出了一种基于分布变换的攻击方法（DTA），该方法可以无需频繁查询目标模型，直接且高效地生成一批对抗示例，用于攻击未知模型。实验验证了该方法的有效性和优越性。

Dec, 2023

利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性

通过提出一种名为动态注意力的新方法，我们设计了一个针对转换器架构的机制来增强模型本身对各种对抗性攻击的鲁棒性，从而显著减轻对抗性攻击的影响，并将其与其他防御方法（如对抗性训练）相结合以进一步增强模型的鲁棒性。

Nov, 2023

基于转移的对抗攻击的自适应图像转换

本文提出了一种名为自适应图片转换学习器（AITL）的新型结构，该结构将不同的图片转换操作集成到统一的框架中，进一步提高对抗样本的可转移性，实验表明该方法在 ImageNet 上的攻击成功率显著提高。

Nov, 2021

学习动态转化以提高对抗迁移性能

通过学习选择最佳的变换组合以提高对抗传递能力的一种新方法，名为 Learning to Transform (L2T)，在实验中展现出优于现有方法的性能，并证实其有效性和实用意义。

May, 2024