ICLRJan, 2024

Raidar: 基于生成式人工智能的检测重写

TL;DR我们发现,在重新编写任务中,大型语言模型(LLMs)更有可能修改人类撰写的文本,而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高,从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法,我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型(包括学术和商业模型)在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分,最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征,与黑盒 LLMs 兼容,并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。