一种基于贝叶斯代理模型的 LLM 生成文本有效检测方法
本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性,提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本,并具有抗检测的能力。此外,研究还对机器生成文本检测机制的鲁棒性做出了贡献,揭示了在使用大规模语言模型技术时存在的社会和伦理问题,并提出了相应的解决方案。
May, 2023
通过应用集成方法来检测大语言模型(LLM)产生的机器生成文本的问题,并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC(相对于 0.61),受监督学习方法可以将准确性提升到 0.94 的 AUROC,但需要一个训练数据集,这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。
Jun, 2024
我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战,这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能,包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD,我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样,涵盖了各种可能性,为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估,基于研究结果,结果主要与句子的序列长度有关。
Nov, 2023
我们提供了对大语言模型的生成文本影响的全面分析,并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题,我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese,将一对文本作为查询和参考,该方法有效解决了以前检测器(OpenAI detector 和 DetectGPT)的鲁棒性缺失,并将基线性能在实际学术写作场景中提高了约 67% 至 95%。
Jan, 2024
本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性,假阳性和弹性,并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器,GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器,而 GLTR 是最弹性的大型语言模型生成文本检测器。
Jul, 2023
介绍了一种基于条件概率曲率的新型优化零样本检测器 Fast-DetectGPT,该检测器在多个数据集、源模型和测试条件下的评估表明,在白盒和黑盒设置中,Fast-DetectGPT 不仅在 DetectGPT 之上表现出色,还将检测过程加速了 340 倍。
Oct, 2023
近期大型语言模型(LLMs)在各种风格和体裁的文本生成方面展示了惊人的能力。然而,这种能力容易被滥用,如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此,建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案,通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法,我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明,与以往的最先进方法相比,性能提升范围在 0.5%到 100%之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明,将商业限制的生成预训练变压器(GPT)数据替换为其他开放语言模型生成的数据,如 Falcon、Large Language Model Meta AI(LLaMA2)和 Mosaic Pretrained Transformers(MPT),是开发生成文本检测器的可行替代方法。此外,为了展示零 - shot 推广能力,我们在一个英语散文数据集上进行了实验,结果表明我们的集成方法可以有效处理新数据。
Nov, 2023
该研究利用基于曲率的方法,提出了一种新的不需要训练分类器、收集真实或生成的文本数据集、或明确给生成文本加上水印的检测方法 DetectGPT,它可以更好地检测 20B 参数的 GPT-NeoX 生成的假新闻文章。
Jan, 2023
文章提供了 GPABenchmark 数据集,并设计了一种名为 CheckGPT 的 LLM 内容检测器,它可以高精度检测 LLM 生成的学术写作和在不同领域进行迁移学习,并具有可解释性。
Jun, 2023
我们提出了一种新的检测器,使用选择性策略扰动减轻了随机屏蔽引起的重要信息损失,并使用多对比学习来捕捉扰动过程中的隐含模式信息,从而提高少样本学习性能。在四个公共数据集上,实验证明,我们的模型在准确度上比 SOTA 方法平均提高了 1.20%。我们进一步分析了扰动方法的有效性、稳健性和泛化性。
Feb, 2024