AI 生成文本能否被可靠地检测出来？

Mar, 2023

AI 生成文本能否被可靠地检测出来？

Can AI-Generated Text be Reliably Detected?

Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi

TL;DR本篇研究展示了当前语言模型（LLMs）产生的文本检测器的可靠性不足，并提出了模仿攻击和伪造攻击等问题，强调了在使用 AI 生成文本时的伦理和可靠性问题。

Abstract

The rapid progress of Large language models (LLMs) has made them capable of performing astonishingly well on various tasks including document completion and question answering. The unregulated use of these models, however, can potentially lead to malicious consequences such as

language models ai-generated text watermarking plagiarism detecting

发现论文，激发创造

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

探讨 AI 生成文本检测的可能性与不可能性：一项调查

通过综述当前研究的展望和限制，本文对大型语言模型的滥用、人工智能生成文本的检测框架以及相关的开放问题进行了全面的讨论和概述。

Oct, 2023

关于大型语言模型中水印可靠性的研究

本文探讨使用不同的检测方法来对水印进行可靠的鉴别，并研究机器生成文本的大量观察对于水印的鉴别是否可靠，最终表明水印技术是一项可靠的解决方案，尤其是在样本复杂度越高时，水印证据会逐渐累积，并最终被检测出来。

Jun, 2023

改写可以躲避 AI 生成文本的检测，但究竟能否防御检索攻击？

通过语义相似的生成物和检测算法，该研究提出了一种简单的防御，以增加对 AI 生成文本的检测器对抗改写攻击的鲁棒性。

Mar, 2023

论人工智能生成的文本检测的可能性

该文针对如何区分机器生成文本和人类生成文本的问题，提出了基于信息理论的准确度量方法，讨论并设计出更优秀的文本检测器，并给出了样本复杂度的理论上限。

Apr, 2023

DUPE: 通过 Prompt Engineering 检测 Deepfake 文本的方法

评估了三种不同的 AI 文本检测器，发现水印技术存在较高的误报率，ZeroGPT 技术误报和漏报率都较高，并通过使用 ChatGPT 3.5 来将原始的 AI 生成文本改写，有效地绕过了这些检测器的误报率和漏报率。

Apr, 2024

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

检测 LLM 生成的文本的科学

该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述，并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。

Feb, 2023

探测人工智能生成的文本：当前方法中影响可检测性的因素

大语言模型（LLM）已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本（AIGT）检测方法，包括水印、统计和风格分析以及机器学习分类，并提供了有关该任务的现有数据集的信息。总结研究结果，我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素，并就解决这一重大技术和社会挑战提出实际建议。

Jun, 2024

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023