GPT 生成文本检测：基准数据集与基于张量的检测方法

WWWMar, 2024

GPT 生成文本检测：基准数据集与基于张量的检测方法

GPT-generated Text Detection: Benchmark Dataset and Tensor-based Detection Method

Zubair Qazi, William Shiao, Evangelos E. Papalexakis

TL;DR通过 GPT Reddit 数据集（GRiD）和新颖的 GpTen 张量基准模型，本论文提出了一种对 ChatGPT 生成的文本进行检测的方法，旨在评估检测模型在识别 ChatGPT 生成应答方面的性能。该数据集包含了基于 Reddit 的多样化的语境 - 提示对，同时包括了人类生成的应答和 ChatGPT 生成的应答，通过对数据集特征进行分析，如语言多样性、上下文复杂性和应答质量，展示了这个数据集的实用性。实验中比较了几种检测方法，并展示了它们在区分人类和 ChatGPT 生成应答方面的有效性。该数据集为评估和推进 ChatGPT 的检测技术提供了资源，也为确保互联网上负责任和值得信赖的基于 AI 的交流做出了贡献。最后，我们提出了 GpTen 作为一种半监督方法来检测 GPT 生成的文本，该方法仅有人类生成的文本作为参考，并能与完全监督的基准模型表现相当。

Abstract

As natural language models like ChatGPT become increasingly prevalent in applications and services, the need for robust and accurate methods to detect their output is of paramount importance. In this paper, we present GPT Reddit Dataset (GRiD), a novel Generative Pretrained Transformer

natural language models gpt reddit dataset text detection chatgpt-generated responses gpten

发现论文，激发创造

GPT-Sentinel：区分人类和 ChatGPT 生成的内容

本论文提出了一种使用语言模型检测 ChatGPT 生成的文本与人工编写文本的新方法，并设计、实现和训练了两种不同的文本分类模型，使用了 Robustly Optimized BERT Pretraining Approach（RoBERTa）和 Text-to-Text Transfer Transformer（T5），精度超过 97％，我们还进行了可解释性研究，展示了模型提取和区分人工编写和 ChatGPT 生成文本的关键特征的能力，研究结果为有效使用语言模型检测生成文本提供了重要的见解。

May, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

关于基于训练的 ChatGPT 检测方法的泛化性

ChatGPT 是最流行的语言模型之一，在各种自然语言任务上表现出色。本研究的目的是全面调查这些方法在分布偏移下的泛化行为，包括提示、文本长度、主题和语言任务，从而为 ChatGPT 检测的未来方法或数据收集策略的开发提供指导。

Oct, 2023

以火攻火：ChatGPT 能否检测生成的人工智能文本？

研究中探讨了 ChatGPT 作为 AI 生成文本检测器的性能，通过评估它在人工编写与 AI 生成文本检测任务上的零样本表现，并对公开可用的数据集进行实验。结果发现 ChatGPT 以及类似的大型语言模型可在自动化检测流程中发挥作用，通过专注于解决问题的一个特定方面并从该解决方案派生出其他方面的解决方案。

Aug, 2023

ChatGPT 检测：探究 ChatGPT 生成文本的现状概述

用于区分 ChatGPT 生成文本和人类生成文本的当前方法的综述，包括构建用于检测 ChatGPT 生成文本的不同数据集，采用的各种方法，对人类与 ChatGPT 生成文本特征的定性分析，并最终总结研究结果为一般性见解。

Sep, 2023

利用机器学习区分人类生成文本和 ChatGPT 生成的文本

本研究提出了一种基于机器学习的解决方案，可以识别 ChatGPT 生成的文本，并在分类过程中比较分析了共 11 种机器学习和深度学习算法。在 Kaggle 数据集上测试，该算法在由 GPT-3.5 生成的语料库上表现出 77% 的准确率。

May, 2023

G3Detector：通用 GPT 生成文本检测器

本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性，提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本，并具有抗检测的能力。此外，研究还对机器生成文本检测机制的鲁棒性做出了贡献，揭示了在使用大规模语言模型技术时存在的社会和伦理问题，并提出了相应的解决方案。

May, 2023

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

CHEAT：用于检测 ChatGPT 写作的大规模数据集

研究了 ChatGPT 对学术界原创性和严谨性的可能负面影响，并提出了一个大规模数据集以支持检测算法的开发。该数据集包含了 35,304 个合成摘要，同时对现有的文本合成检测算法进行了深入分析，表明 ChatGPT 合成的摘要是可以被检测出来的，但随着人类参与的增加，检测难度会增加。

Apr, 2023