ACLJun, 2024

穿越黑暗:揭示现代 AI 内容检测器的有效干扰

TL;DR利用机器学习模型对文章进行自动生成的大语言模型,在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景,评估当前检测模型在实际应用中的性能,并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外,通过对抗学习实验,研究扰动数据增强对 AI 文本检测器鲁棒性的影响。