DetectGPT: 使用概率曲率的零样本生成文本检测

Jan, 2023

DetectGPT: 使用概率曲率的零样本生成文本检测

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn

TL;DR该研究利用基于曲率的方法，提出了一种新的不需要训练分类器、收集真实或生成的文本数据集、或明确给生成文本加上水印的检测方法 DetectGPT，它可以更好地检测 20B 参数的 GPT-NeoX 生成的假新闻文章。

Abstract

The fluency and factual knowledge of large language models (LLMs) heightens the need for corresponding systems to detect whether a piece of text is machine-written. For example, students may use LLMs to complete written assignments, leaving instructors unable to accurately assess stude

large language models text detection curvature-based criterion zero-shot methods detectgpt

发现论文，激发创造

Fast-DetectGPT: 通过条件概率曲率高效零样本检测机器生成的文本

介绍了一种基于条件概率曲率的新型优化零样本检测器 Fast-DetectGPT，该检测器在多个数据集、源模型和测试条件下的评估表明，在白盒和黑盒设置中，Fast-DetectGPT 不仅在 DetectGPT 之上表现出色，还将检测过程加速了 340 倍。

Oct, 2023

一种基于贝叶斯代理模型的 LLM 生成文本有效检测方法

本文提出了一种基于贝叶斯代理模型的机器文本检测方法，能够有效提高查询效率，并在低查询预算下实现更好的性能，相比于 DetectGPT，查询次数减少了最多 2 倍，AUROC 提高了 3.7%。

May, 2023

AuthentiGPT：通过黑盒语言模型去噪检测机器生成文本

鉴于大型语言模型（LLMs）在同时提供巨大机遇的同时也引发了伦理困境，我们提出了 AuthentiGPT，这是一个有效的分类器，用于区分机器生成的和人类编写的文本。通过给输入文本添加人工噪声，并在语义上比较去噪后的文本与原始文本，AuthentiGPT 利用了黑盒 LLM 来消除输入文本的噪声，以判断内容是否为机器生成。通过只有一个可训练参数，AuthentiGPT 消除了需要大量训练数据集、对 LLM 输出进行水印处理或计算对数似然的需求。在特定领域数据集上具有 0.918 AUROC 分数的 AuthentiGPT 表明其在检测学术环境中的机器生成文本方面的有效性，并凸显了它的潜力。

Nov, 2023

零样本检测机器生成代码

提出了一种对 LLMs 生成的代码进行训练无关的检测方法，以减少与它们的无差别使用相关的风险。通过对现有的基于训练或零样本的文本检测方法进行研究，我们发现这些方法对代码的检测不够有效，可能是由于代码结构中所具有的独特统计特性。本研究通过修改之前的零样本文本检测方法，利用代理的白盒模型来估计最右侧标记的概率，从而能够识别由语言模型生成的代码片段。通过对 CodeContest 和 APPS 数据集的 Python 代码进行大量实验，我们的方法在 text-davinci-003、GPT-3.5 和 GPT-4 模型上取得了最新的检测结果，并且对修订攻击具有鲁棒性，并且对 Java 代码具有很好的通用性。同时，我们还发现较小的代码语言模型 PolyCoder-160M 作为通用代码检测器的表现优于十亿级别的对应模型。代码可在此 https URL Xianjun-Yang/Code_detection.git 获取。

Oct, 2023

DNA-GPT: 基于差异化 N-Gram 分析的无需训练 GPT 生成文本检测

该论文提出了一种新的训练自由的文本检测策略，称为 Divergent N-Gram Analysis（DNA-GPT），通过 N-gram 分析或概率分歧分析比较人类写作和机器生成文本之间的差异，证明了其在区分人类和大型语言模型生成的文本方面具有优越性，并提供合理的解释和证据来支持这一观点，这是一种独特的可解释性检测方法。

May, 2023

关于机器生成文本检测器的零样本泛化

大型语言模型的广泛发展使得检测机器生成的文本变得前所未有的重要。本研究通过收集大范围的语言模型生成数据，训练神经检测器并测试其在未经训练的生成器输出上的性能，发现中等规模语言模型训练的检测器能够零样本推广到更大的版本。作为一个具体的应用，我们证明了可以在中等规模模型的训练数据集合上构建强大的检测器。

Oct, 2023

关于零样本机器生成文本检测器稳定性的评估

通过我们的研究，我们发现了自然语言生成、零样本机器生成文本检测以及大型语言模型等关键词之间的显著相关性，同时我们还探讨了话题转变对零样本检测方法的影响，揭示了这些检测方法在各种不同话题下的适应性和鲁棒性。

Dec, 2023

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

DetectLLM：利用对数秩信息进行零样本检测机器生成的文本

本文介绍了两种利用对数排名信息进行无样本检测的新型机器生成文本检测方法，分别为快速高效的 DetectLLM-LRR 和更加精确但需要扰动的 DetectLLM-NPR，实验证明两种方法分别优于现有技术 3.9 和 1.75 AUROC 点的绝对值。

May, 2023

探测 GPT 是否充分利用扰动？基于模型对比学习检测器选择性扰动更佳

我们提出了一种新的检测器，使用选择性策略扰动减轻了随机屏蔽引起的重要信息损失，并使用多对比学习来捕捉扰动过程中的隐含模式信息，从而提高少样本学习性能。在四个公共数据集上，实验证明，我们的模型在准确度上比 SOTA 方法平均提高了 1.20%。我们进一步分析了扰动方法的有效性、稳健性和泛化性。

Feb, 2024