改述检测：人类与机器内容

Mar, 2023

Paraphrase Detection: Human vs. Machine Content

Jonas Becker, Jan Philip Wahle, Terry Ruas, Bela Gipp

TL;DR本文旨在分析大型语言模型如 GPT-4 和 ChatGPT 等的语言生成和改写能力的特点和限制及其对学术诚信的挑战，探讨人工改写和机器改写之间的区别，并对常用的数据集进行综合分析和评估，结果显示自动生成文本的水平仍不及人类普及水平，适合于语义多样性语料的 TF-IDF 方法的效果最好，同时，发现了四个语义多样性和挑战性最高的数据集。

Abstract

The growing prominence of large language models, such as GPT-4 and ChatGPT, has led to increased concerns over academic integrity due to the potential for →

large language models academic integrity paraphrase detection machine-generated content human-authored paraphrases

发现论文，激发创造

深度学习下的释义识别：数据集和方法综述

本文回顾传统和现有的改进的改写识别方法，提出了改写的一种新分类体系。探究了这种类型在流行的数据集中的表现形式以及一些类型改写的不充分表示如何影响改写识别能力，最后提出了更有效地使用 AI 进行改写检测的未来研究方向和数据集。

Dec, 2022

大型语言模型如何改变机器改写抄袭

本文探讨了使用 T5 和 GPT-3 模型在 arXiv、学生论文和 Wikipedia 上生成机器的译文，并评估了六种自动化解决方案和一种商业剽窃检测软件的检测性能。结果表明，GPT-3 生成的译文质量可以与原始文本一样，而且难以区分真假，最佳检测模型 (GPT-3) 的 F1 分数达到 66％。

Oct, 2022

改写可以躲避 AI 生成文本的检测，但究竟能否防御检索攻击？

通过语义相似的生成物和检测算法，该研究提出了一种简单的防御，以增加对 AI 生成文本的检测器对抗改写攻击的鲁棒性。

Mar, 2023

AI 生成文本检测工具测试

本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究，发现现有的人工智能生成文本检测工具准确性和可靠性都有问题，并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时，内容混淆技术也会显著降低检测工具的性能。

Jun, 2023

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

MUGC: 机器生成与用户生成内容检测

比较了八种传统机器学习算法来区分机器生成数据和人类生成数据，结果表明传统方法在识别机器生成数据方面具有较高准确度。机器生成的文本相比人类生成的内容更短且词汇较少，而特定领域相关关键词可能导致这种高准确度，通过 word2vec 等深层次词表示可以捕捉微妙的语义差异。同时，可读性、偏见、道德和情感对比显示出机器生成内容与人类生成内容的明显差异，研究为机器生成内容在各个领域的进展能力和挑战提供了有价值的见解。

Mar, 2024

突破图灵：检测机器生成文本方法的比较分析

通过对三种不同方法进行深入评估，即传统的浅层学习、语言模型（LM）微调和多语言模型微调，本文对文本生成的重要性有了显著进展，尤其是在区分人类和机器生成文本方面，结果表明这些方法在性能上存在显著差异，强调了在自然语言处理领域中继续推进的重要性，为未来创造强大且具有高度辨别力的模型铺平了道路。

Nov, 2023

解读文本真实性：通过大语言语义的普遍策略来检测人类与机器生成的文本

通过引入一个新的系统 T5LLMCipher，结合预训练的 T5 编码器和 LLM 嵌入子聚类，我们在 9 个不同生成器和领域中评估了我们的方法，并发现与现有方法相比，我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6％，正确属性文本的生成器的准确率达到 93.6％。

Jan, 2024

人工和人类生成文本的分类：对 ChatGPT 的特征研究

我们的研究旨在探索传统和新的特征，以便 (1) 检测 AI 生成的文本和 (2) 由 AI 改写的文本。结果显示，新特征显著提高了许多分类器的性能。我们最好的基本文本改写检测系统在 F1 分数上超过了 GPTZero 的 183.8%。

Aug, 2023