G3Detector：通用 GPT 生成文本检测器

May, 2023

G3Detector：通用 GPT 生成文本检测器

G3Detector: General GPT-Generated Text Detector

Haolan Zhan, Xuanli He, Qiongkai Xu, Yuxiang Wu, Pontus Stenetorp

TL;DR本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性，提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本，并具有抗检测的能力。此外，研究还对机器生成文本检测机制的鲁棒性做出了贡献，揭示了在使用大规模语言模型技术时存在的社会和伦理问题，并提出了相应的解决方案。

Abstract

The burgeoning progress in the field of large language models (LLMs) heralds significant benefits due to their unparalleled capacities. However, it is critical to acknowledge the potential misuse of these models, which could give rise to a spectrum of →

large language models social and ethical dilemmas synthetic text detection machine-generated text detection mechanisms ai technologies

发现论文，激发创造

提升学术写作领域的 LLM-Synthetic 文本检测器的鲁棒性：一项综合分析

我们提供了对大语言模型的生成文本影响的全面分析，并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题，我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese，将一对文本作为查询和参考，该方法有效解决了以前检测器（OpenAI detector 和 DetectGPT）的鲁棒性缺失，并将基线性能在实际学术写作场景中提高了约 67% 至 95%。

Jan, 2024

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

检测在计算机教育中生成的 LLM 文本：一个 ChatGPT 案例的比较研究

本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性，假阳性和弹性，并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器，GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器，而 GLTR 是最弹性的大型语言模型生成文本检测器。

Jul, 2023

ChatGPT 检测：探究 ChatGPT 生成文本的现状概述

用于区分 ChatGPT 生成文本和人类生成文本的当前方法的综述，包括构建用于检测 ChatGPT 生成文本的不同数据集，采用的各种方法，对人类与 ChatGPT 生成文本特征的定性分析，并最终总结研究结果为一般性见解。

Sep, 2023

威胁模型和检测方法的综合调研

本文是关于机器生成文本和自然语言生成领域的综述。研究表明，机器生成文本与人类作者的文本越来越难以区分，因此我们讨论了现代自然语言生成系统带来的威胁模型，并对文本检测方法进行了最全面的综述。本文进一步讨论了机器生成文本的安全和社会背景，并提出了在未来工作中需要考虑的最关键威胁模型，以及确保检测系统本身通过公正、稳健和负责任的方式展示其信任性。

Oct, 2022

一种基于贝叶斯代理模型的 LLM 生成文本有效检测方法

本文提出了一种基于贝叶斯代理模型的机器文本检测方法，能够有效提高查询效率，并在低查询预算下实现更好的性能，相比于 DetectGPT，查询次数减少了最多 2 倍，AUROC 提高了 3.7%。

May, 2023

LLMs 生成内容检测调查

综述了大规模语言模型（LLMs）生成内容检测的现有策略和基准，并指出该领域的关键挑战和前景，提倡采用更加适应性和稳健的模型来提高检测准确性，以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究，旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考，以保护数字信息的完整性。

Oct, 2023

检测虚假生成的科学摘要

本研究基于 GPT-3 模型自动生成科学论文摘要，通过机器学习模型结合多种文本表示方法来辨别机器生成文本，并分析模型性能及讨论相关研究问题，旨在揭示人工智能生成文本的能力和局限性。

Apr, 2023

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024