AI 生成文本检测器对抗扰动的鲁棒性研究

ACLJun, 2024

AI 生成文本检测器对抗扰动的鲁棒性研究

Are AI-Generated Text Detectors Robust to Adversarial Perturbations?

Guanhua Huang, Yuchen Zhang, Zhe Li, Yongjian You, Mingze Wang...

TL;DR本文研究了现有的 AI 生成文本检测方法的鲁棒性，并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network（SCRN）。SCRN 采用重构网络来添加和去除文本中的噪声，从而提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种孪生校准技术来训练模型，在不同的噪声下做出相同的置信度预测，从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验证明，SCRN 在对抗攻击下相对于最佳基线方法取得了 6.5％-18.25％的绝对准确率改进。此外，在跨领域、跨种类和混合来源场景下展现了卓越的泛化能力。代码可在 https://github.com/CarlanLark/Robust-AIGC-Detector 获取。

Abstract

The widespread use of large language models (LLMs) has sparked concerns about the potential misuse of ai-generated text, as these models can produce content that closely resembles human-generated text. Current de

large language models ai-generated text adversarial perturbations siamese calibrated reconstruction network baseline methods

发现论文，激发创造

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Jun, 2024

探测人工智能生成的文本：当前方法中影响可检测性的因素

大语言模型（LLM）已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本（AIGT）检测方法，包括水印、统计和风格分析以及机器学习分类，并提供了有关该任务的现有数据集的信息。总结研究结果，我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素，并就解决这一重大技术和社会挑战提出实际建议。

Jun, 2024

提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性：一项综合分析

我们提供了对大语言模型的生成文本影响的全面分析，并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题，我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese，将一对文本作为查询和参考，该方法有效解决了以前检测器（OpenAI detector 和 DetectGPT）的鲁棒性缺失，并将基线性能在实际学术写作场景中提高了约 67% 至 95%。

Jan, 2024

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

RADAR: 鲁棒的 AI 文本检测方法

RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.

Jul, 2023

提高 AI 生成图像检测的解释性和鲁棒性

随着生成模型的能力增长，人工内容检测成为一项越来越重要且困难的任务。本文关注 AI 生成图像（AIGI）检测器的鲁棒性，通过分析基于冻结 CLIP 嵌入的现有最先进方法并展示如何解释它们，我们揭示了各种 AI 生成器生成的图像与真实图像的差异，并提出了两种改进鲁棒性的方法：基于去除嵌入向量的有害成分和基于选择图像编码模型中表现最佳的注意力头。我们的方法在交叉模型转换中将平均超出分布（OOD）分类得分提高了高达 6%。我们还提出了一个用于 AIGI 检测的新数据集，并在评估中使用了该数据集；我们相信这个数据集将有助于推动进一步的研究。数据集和代码已作为补充提供。

Jun, 2024

评估 AI 检测器在识别 AI 生成代码中的应用：对教育的影响

研究聚焦于大型语言模型在编程教育中的应用，特别关注人工智能生成内容检测器在学术不端中的潜在漏洞，并通过生成代码来检验大型语言模型对于绕过检测的努力。研究结果表明现有的人工智能生成内容检测器在区别人工编写的代码和人工智能生成的代码方面表现不佳。

Jan, 2024

隐匿论文代写：AI 生成学生论文检测的对抗性评估

构建了 AIG-ASAP 数据集，利用文本扰动方法生成高质量的学生论文，评估当前 AIGC 检测器在该数据集上的性能，发现现有检测器容易受到自动对抗攻击的规避，强调需要更准确、更稳健的方法来检测教育领域中的 AI 生成学生论文。

Feb, 2024

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

J-Guard: 以新闻引导的对抗鲁棒性检测人工智能生成的新闻

AI 生成的新闻是网络上的重要的误信息来源，此研究开发了一个名为 J-Guard 的框架，通过应用独特的新闻特征来有效区分真实的新闻和 AI 生成的新闻，并在面对对抗性攻击时只有 7％的性能下降。

Sep, 2023