AuthentiGPT：通过黑盒语言模型去噪检测机器生成文本

Nov, 2023

AuthentiGPT：通过黑盒语言模型去噪检测机器生成文本

AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language Models Denoising

Zhen Guo, Shangdi Yu

TL;DR鉴于大型语言模型（LLMs）在同时提供巨大机遇的同时也引发了伦理困境，我们提出了 AuthentiGPT，这是一个有效的分类器，用于区分机器生成的和人类编写的文本。通过给输入文本添加人工噪声，并在语义上比较去噪后的文本与原始文本，AuthentiGPT 利用了黑盒 LLM 来消除输入文本的噪声，以判断内容是否为机器生成。通过只有一个可训练参数，AuthentiGPT 消除了需要大量训练数据集、对 LLM 输出进行水印处理或计算对数似然的需求。在特定领域数据集上具有 0.918 AUROC 分数的 AuthentiGPT 表明其在检测学术环境中的机器生成文本方面的有效性，并凸显了它的潜力。

Abstract

large language models (LLMs) have opened up enormous opportunities while simultaneously posing ethical dilemmas. One of the major concerns is their ability to create text that closely mimics human writing, which can lead to potential misuse, such as →

large language models authentigpt machine-generated text academic misconduct detection capability

发现论文，激发创造

小型语言模型更适合于黑盒子机器生成文本检测

本研究旨在通过训练检测器以区分生成文本与人类编写文本，并发现适用于小且部分训练的生成模型更易检测。检测器与生成器是否基于相同数据不影响检测结果。

May, 2023

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024

G3Detector：通用 GPT 生成文本检测器

本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性，提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本，并具有抗检测的能力。此外，研究还对机器生成文本检测机制的鲁棒性做出了贡献，揭示了在使用大规模语言模型技术时存在的社会和伦理问题，并提出了相应的解决方案。

May, 2023

DUPE: 通过 Prompt Engineering 检测 Deepfake 文本的方法

评估了三种不同的 AI 文本检测器，发现水印技术存在较高的误报率，ZeroGPT 技术误报和漏报率都较高，并通过使用 ChatGPT 3.5 来将原始的 AI 生成文本改写，有效地绕过了这些检测器的误报率和漏报率。

Apr, 2024

DetectGPT: 使用概率曲率的零样本生成文本检测

该研究利用基于曲率的方法，提出了一种新的不需要训练分类器、收集真实或生成的文本数据集、或明确给生成文本加上水印的检测方法 DetectGPT，它可以更好地检测 20B 参数的 GPT-NeoX 生成的假新闻文章。

Jan, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

一种基于贝叶斯代理模型的 LLM 生成文本有效检测方法

本文提出了一种基于贝叶斯代理模型的机器文本检测方法，能够有效提高查询效率，并在低查询预算下实现更好的性能，相比于 DetectGPT，查询次数减少了最多 2 倍，AUROC 提高了 3.7%。

May, 2023

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

检测在计算机教育中生成的 LLM 文本：一个 ChatGPT 案例的比较研究

本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性，假阳性和弹性，并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器，GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器，而 GLTR 是最弹性的大型语言模型生成文本检测器。

Jul, 2023