基于 Transformer 的大型语言模型的 AI 内容自检测

Dec, 2023

基于 Transformer 的大型语言模型的 AI 内容自检测

AI Content Self-Detection for Transformer-based Large Language Models

Antônio Junior Alves Caiado, Michael Hahsler

TL;DR本文介绍了直接来源检测的概念，并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明，Google 的 Bard 模型表现出最大的自检测能力，准确率达到 94％，其次是 OpenAI 的 ChatGPT，准确率为 83％。而 Anthropic 的 Claude 模型似乎无法自检测。

Abstract

$ $The usage of generative artificial intelligence (AI) tools based on large language models, including ChatGPT, Bard, and Claude, for text generation has many exciting applications with the potential for phenomenal productivity gains. One issue is →

generative artificial intelligence authorship attribution plagiarism detection transformer-based models self-detection

发现论文，激发创造

AI 生成文本检测工具测试

本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究，发现现有的人工智能生成文本检测工具准确性和可靠性都有问题，并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时，内容混淆技术也会显著降低检测工具的性能。

Jun, 2023

基于自然语言处理和机器学习方法的检测人工智能生成的文本

自然语言处理、人工智能、AI 检测模型、BERT 架构和 AI 生成文本识别是该研究的五个关键词。

Apr, 2024

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

大型语言模型生成科学内容的深度学习检测方法

聊天 GPT 生成科技文本检测方法 AI-Catcher 融合 MLP 和 CNN 模型，通过对语言和统计特征进行特性学习以及从文本内容中提取顺序模式的高级表示，能更准确地区分人类撰写和 GPT 生成的科技文本，平均提高 37.4% 的准确性。

Feb, 2024

探测人工智能生成的文本：当前方法中影响可检测性的因素

大语言模型（LLM）已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本（AIGT）检测方法，包括水印、统计和风格分析以及机器学习分类，并提供了有关该任务的现有数据集的信息。总结研究结果，我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素，并就解决这一重大技术和社会挑战提出实际建议。

Jun, 2024

大型语言模型如何改变机器改写抄袭

本文探讨了使用 T5 和 GPT-3 模型在 arXiv、学生论文和 Wikipedia 上生成机器的译文，并评估了六种自动化解决方案和一种商业剽窃检测软件的检测性能。结果表明，GPT-3 生成的译文质量可以与原始文本一样，而且难以区分真假，最佳检测模型 (GPT-3) 的 F1 分数达到 66％。

Oct, 2022

Raidar: 基于生成式人工智能的检测重写

我们发现，在重新编写任务中，大型语言模型（LLMs）更有可能修改人类撰写的文本，而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高，从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法，我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型（包括学术和商业模型）在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分，最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征，与黑盒 LLMs 兼容，并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。

Jan, 2024

人工和人类生成文本的分类：对 ChatGPT 的特征研究

我们的研究旨在探索传统和新的特征，以便 (1) 检测 AI 生成的文本和 (2) 由 AI 改写的文本。结果显示，新特征显著提高了许多分类器的性能。我们最好的基本文本改写检测系统在 F1 分数上超过了 GPTZero 的 183.8%。

Aug, 2023