Mar, 2023
AI 生成文本能否被可靠地检测出来?
Can AI-Generated Text be Reliably Detected?
Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi
TL;DR本篇研究展示了当前语言模型(LLMs)产生的文本检测器的可靠性不足,并提出了模仿攻击和伪造攻击等问题,强调了在使用 AI 生成文本时的伦理和可靠性问题。
Abstract
The rapid progress of Large language models (LLMs) has made them capable of
performing astonishingly well on various tasks including document completion
and question answering. The unregulated use of these models, however, can
potentially lead to malicious consequences such as
发现论文,激发创造
人性化机器生成内容:通过对抗性攻击规避 AI 文本检测
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
关于大型语言模型中水印可靠性的研究
本文探讨使用不同的检测方法来对水印进行可靠的鉴别,并研究机器生成文本的大量观察对于水印的鉴别是否可靠,最终表明水印技术是一项可靠的解决方案,尤其是在样本复杂度越高时,水印证据会逐渐累积,并最终被检测出来。
Jun, 2023
DUPE: 通过 Prompt Engineering 检测 Deepfake 文本的方法
评估了三种不同的 AI 文本检测器,发现水印技术存在较高的误报率,ZeroGPT 技术误报和漏报率都较高,并通过使用 ChatGPT 3.5 来将原始的 AI 生成文本改写,有效地绕过了这些检测器的误报率和漏报率。
Apr, 2024
检测 LLM 生成的文本的科学
该研究对大型语言模型生成文本的检测技术现状及未来方向进行了综述,并提出了发展全面的评估指标和威胁控制方案等必要措施。关注点包括大型语言模型的开源威胁和其所产生的可能的误传信息问题。
Feb, 2023
探测人工智能生成的文本:当前方法中影响可检测性的因素
大语言模型(LLM)已经发展到一个即使是人类也很难分辨文本是否由其他人类或计算机生成的程度。本文概述了现有的 AI 生成文本(AIGT)检测方法,包括水印、统计和风格分析以及机器学习分类,并提供了有关该任务的现有数据集的信息。总结研究结果,我们旨在揭示在不同情境下决定 AIGT 文本 “可检测性” 的突出因素,并就解决这一重大技术和社会挑战提出实际建议。
Jun, 2024