针对神经排序模型的几乎不可察觉的文档篡改

ACLMay, 2023

针对神经排序模型的几乎不可察觉的文档篡改

Towards Imperceptible Document Manipulations against Neural Ranking Models

Xuanang Chen, Ben He, Zheng Ye, Le Sun, Yingfei Sun

TL;DR本研究提出了一种名为 Imperceptible DocumEnt Manipulation (IDEM) 的框架，该框架可以生成对算法和人类来说更难察觉的对抗性文档，并通过在不引入易于检测错误的情况下指导已建立的生成语言模型（例如 BART）生成连接语句，同时采用分离的位置合并策略来平衡扰动文本的相关性和一致性。实验结果表明，IDEM 可以在保持目标文档的流畅性和正确性的同时，胜过强的基准，并且将对抗文本生成与替代 NRM 的分离使 IDEM 更加强健，不受替代 NRM 质量的影响。

Abstract

adversarial attacks have gained traction in order to identify potential vulnerabilities in neural ranking models (NRMs), but current attack methods often introduce grammatical errors, nonsensical expressions, or

adversarial attacks neural ranking models imperceptible document manipulation bart ms marco benchmark

发现论文，激发创造

文本检索中对抗性排序攻击的防御：通过检测进行基准和基线

建立了一个基准数据集，针对神经排序模型的对抗文档进行了两类检测任务的研究，并对多个检测基线的性能进行了综合调查，实验结果表明，使用监督分类器可以有效缓解已知攻击，但对于未知攻击效果很差。此外，这样的分类器应避免使用查询文本以防止学习相关性分类，以免误分类相关文件。

Jul, 2023

不可察觉的自然语言处理攻击

本研究探索了一种新的文本诱骗攻击方式，使用对人眼不可见的编码特定干扰，攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型，破坏了系统的性能，提出了输入净化的需求。

Jun, 2021

Order-Disorder: 模拟对抗攻击用于黑盒神经排序模型

本文提出了一种模仿对抗攻击的方法，通过基于梯度的攻击方法生成对抗触发器，对各种最先进的神经排名模型进行排序伪造，从而对抗黑盒神经通道排名模型的扰动攻击。

Sep, 2022

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

基于数据表示的分布特征检测文本对抗攻击样本

本文提出两种反应式方法来检测 NLP 中的文字对抗样本，使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。

Apr, 2022

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022