DetectGPT: 使用概率曲率的零样本生成文本检测
介绍了一种基于条件概率曲率的新型优化零样本检测器 Fast-DetectGPT,该检测器在多个数据集、源模型和测试条件下的评估表明,在白盒和黑盒设置中,Fast-DetectGPT 不仅在 DetectGPT 之上表现出色,还将检测过程加速了 340 倍。
Oct, 2023
本文提出了一种基于贝叶斯代理模型的机器文本检测方法,能够有效提高查询效率,并在低查询预算下实现更好的性能,相比于 DetectGPT,查询次数减少了最多 2 倍,AUROC 提高了 3.7%。
May, 2023
鉴于大型语言模型(LLMs)在同时提供巨大机遇的同时也引发了伦理困境,我们提出了 AuthentiGPT,这是一个有效的分类器,用于区分机器生成的和人类编写的文本。通过给输入文本添加人工噪声,并在语义上比较去噪后的文本与原始文本,AuthentiGPT 利用了黑盒 LLM 来消除输入文本的噪声,以判断内容是否为机器生成。通过只有一个可训练参数,AuthentiGPT 消除了需要大量训练数据集、对 LLM 输出进行水印处理或计算对数似然的需求。在特定领域数据集上具有 0.918 AUROC 分数的 AuthentiGPT 表明其在检测学术环境中的机器生成文本方面的有效性,并凸显了它的潜力。
Nov, 2023
提出了一种对 LLMs 生成的代码进行训练无关的检测方法,以减少与它们的无差别使用相关的风险。通过对现有的基于训练或零样本的文本检测方法进行研究,我们发现这些方法对代码的检测不够有效,可能是由于代码结构中所具有的独特统计特性。本研究通过修改之前的零样本文本检测方法,利用代理的白盒模型来估计最右侧标记的概率,从而能够识别由语言模型生成的代码片段。通过对 CodeContest 和 APPS 数据集的 Python 代码进行大量实验,我们的方法在 text-davinci-003、GPT-3.5 和 GPT-4 模型上取得了最新的检测结果,并且对修订攻击具有鲁棒性,并且对 Java 代码具有很好的通用性。同时,我们还发现较小的代码语言模型 PolyCoder-160M 作为通用代码检测器的表现优于十亿级别的对应模型。代码可在此 https URL Xianjun-Yang/Code_detection.git 获取。
Oct, 2023
该论文提出了一种新的训练自由的文本检测策略,称为 Divergent N-Gram Analysis(DNA-GPT),通过 N-gram 分析或概率分歧分析比较人类写作和机器生成文本之间的差异,证明了其在区分人类和大型语言模型生成的文本方面具有优越性,并提供合理的解释和证据来支持这一观点,这是一种独特的可解释性检测方法。
May, 2023
大型语言模型的广泛发展使得检测机器生成的文本变得前所未有的重要。本研究通过收集大范围的语言模型生成数据,训练神经检测器并测试其在未经训练的生成器输出上的性能,发现中等规模语言模型训练的检测器能够零样本推广到更大的版本。作为一个具体的应用,我们证明了可以在中等规模模型的训练数据集合上构建强大的检测器。
Oct, 2023
通过我们的研究,我们发现了自然语言生成、零样本机器生成文本检测以及大型语言模型等关键词之间的显著相关性,同时我们还探讨了话题转变对零样本检测方法的影响,揭示了这些检测方法在各种不同话题下的适应性和鲁棒性。
Dec, 2023
我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战,这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能,包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD,我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样,涵盖了各种可能性,为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估,基于研究结果,结果主要与句子的序列长度有关。
Nov, 2023
本文介绍了两种利用对数排名信息进行无样本检测的新型机器生成文本检测方法,分别为快速高效的 DetectLLM-LRR 和更加精确但需要扰动的 DetectLLM-NPR,实验证明两种方法分别优于现有技术 3.9 和 1.75 AUROC 点的绝对值。
May, 2023
我们提出了一种新的检测器,使用选择性策略扰动减轻了随机屏蔽引起的重要信息损失,并使用多对比学习来捕捉扰动过程中的隐含模式信息,从而提高少样本学习性能。在四个公共数据集上,实验证明,我们的模型在准确度上比 SOTA 方法平均提高了 1.20%。我们进一步分析了扰动方法的有效性、稳健性和泛化性。
Feb, 2024