穿越黑暗：揭示现代 AI 内容检测器的有效干扰

ACLJun, 2024

穿越黑暗：揭示现代 AI 内容检测器的有效干扰

Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors

Ying Zhou, Ben He, Le Sun

TL;DR利用机器学习模型对文章进行自动生成的大语言模型，在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景，评估当前检测模型在实际应用中的性能，并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外，通过对抗学习实验，研究扰动数据增强对 AI 文本检测器鲁棒性的影响。

Abstract

With the launch of ChatGPT, large language models (LLMs) have attracted global attention. In the realm of article writing, LLMs have witnessed extensive utilization, giving rise to concerns related to intellectual property protection, personal privacy, and academic integrity. In respon

large language models ai-text detection text perturbation methods detection performance robustness

发现论文，激发创造

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性：一项综合分析

我们提供了对大语言模型的生成文本影响的全面分析，并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题，我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese，将一对文本作为查询和参考，该方法有效解决了以前检测器（OpenAI detector 和 DetectGPT）的鲁棒性缺失，并将基线性能在实际学术写作场景中提高了约 67% 至 95%。

Jan, 2024

DUPE: 通过 Prompt Engineering 检测 Deepfake 文本的方法

评估了三种不同的 AI 文本检测器，发现水印技术存在较高的误报率，ZeroGPT 技术误报和漏报率都较高，并通过使用 ChatGPT 3.5 来将原始的 AI 生成文本改写，有效地绕过了这些检测器的误报率和漏报率。

Apr, 2024

机器生成文本检测器在攻击下的鲁棒性压力测试

通过对大规模语言模型、机器生成文本检测器、恶意攻击、鲁棒性和缺陷进行全面研究，我们揭示了现有检测器在不同攻击形式下的脆弱性，并提出了初步的解决方案，以提高其鲁棒性。

Feb, 2024

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

检测在计算机教育中生成的 LLM 文本：一个 ChatGPT 案例的比较研究

本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性，假阳性和弹性，并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器，GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器，而 GLTR 是最弹性的大型语言模型生成文本检测器。

Jul, 2023

评估 AI 检测器在识别 AI 生成代码中的应用：对教育的影响

研究聚焦于大型语言模型在编程教育中的应用，特别关注人工智能生成内容检测器在学术不端中的潜在漏洞，并通过生成代码来检验大型语言模型对于绕过检测的努力。研究结果表明现有的人工智能生成内容检测器在区别人工编写的代码和人工智能生成的代码方面表现不佳。

Jan, 2024

面向语言模型生成文本的鲁棒检测：ChatGPT 是否易于检测？

该论文提出了一种用于开发和评估 ChatGPT 检测器的方法，重点研究它们对领域外数据和常见攻击方案的鲁棒性，结果显示在域内环境中，检测器可以有效地检测 ChatGPT 生成的文本，但在域外环境中存在容易受到攻击的弱点.

Jun, 2023

AI 生成文本检测工具测试

本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究，发现现有的人工智能生成文本检测工具准确性和可靠性都有问题，并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时，内容混淆技术也会显著降低检测工具的性能。

Jun, 2023

AI 生成文本检测器对抗扰动的鲁棒性研究

本文研究了现有的 AI 生成文本检测方法的鲁棒性，并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network（SCRN）。SCRN 采用重构网络来添加和去除文本中的噪声，从而提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种孪生校准技术来训练模型，在不同的噪声下做出相同的置信度预测，从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验证明，SCRN 在对抗攻击下相对于最佳基线方法取得了 6.5％-18.25％的绝对准确率改进。此外，在跨领域、跨种类和混合来源场景下展现了卓越的泛化能力。代码可在 https://github.com/CarlanLark/Robust-AIGC-Detector 获取。

Jun, 2024