Raidar: 基于生成式人工智能的检测重写

ICLRJan, 2024

Raidar: 基于生成式人工智能的检测重写

Raidar: geneRative AI Detection viA Rewriting

Chengzhi Mao, Carl Vondrick, Hao Wang, Junfeng Yang

TL;DR我们发现，在重新编写任务中，大型语言模型（LLMs）更有可能修改人类撰写的文本，而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高，从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法，我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型（包括学术和商业模型）在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分，最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征，与黑盒 LLMs 兼容，并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。

Abstract

We find that large language models (LLMs) are more likely to modify human-written text than ai-generated text when tasked with rewriting. This tendency arises because LLMs often perceive →

large language models ai-generated text raidar generative ai detection via rewriting machine-generated text

发现论文，激发创造

RADAR: 鲁棒的 AI 文本检测方法

RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.

Jul, 2023

基于 Transformer 的大型语言模型的 AI 内容自检测

本文介绍了直接来源检测的概念，并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明，Google 的 Bard 模型表现出最大的自检测能力，准确率达到 94％，其次是 OpenAI 的 ChatGPT，准确率为 83％。而 Anthropic 的 Claude 模型似乎无法自检测。

Dec, 2023

模仿游戏：在大型语言模型时代检测人类和 AI 生成的文本

通过对人类写作文本和基于大型语言模型的生成文本进行比较研究，该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果，同时指出在故事写作方面识别生成文本的困难性，为未来在人工智能文本识别方面提供了启示和研究数据集。

Jul, 2023

AI 生成之抄袭侦测：从句子到文件级别

使用自然语言处理技术的对比学习方法，通过多重语义解读对大型语言模型的生成文本进行分析，达到了 94% 的准确率，在学术界检测人工智能生成的文本的抄袭和欺诈具有强大的适应性和可靠性。

Jun, 2023

AI 生成文本能否被可靠地检测出来？

本篇研究展示了当前语言模型（LLMs）产生的文本检测器的可靠性不足，并提出了模仿攻击和伪造攻击等问题，强调了在使用 AI 生成文本时的伦理和可靠性问题。

Mar, 2023

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

谁撰写评论，人类还是人工智能？

本研究提出了一种方法来准确区分 AI 生成和人工撰写的书评，通过使用迁移学习，该方法能够在不同主题上识别生成的文本，并提高对写作风格和词汇变化的检测能力。实验结果表明，能够检测文本的原始来源，达到了 96.86% 的准确率。为了确保人工生成内容的完整性和真实性，扩大对大型语言模型在文本识别方面的能力和限制的理解对于有效地应用类似的模型以及确保内容的整体和真实性将是有价值的。

May, 2024

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023