ACLJun, 2024

AI 生成文本检测器对抗扰动的鲁棒性研究

TL;DR本文研究了现有的 AI 生成文本检测方法的鲁棒性,并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network(SCRN)。SCRN 采用重构网络来添加和去除文本中的噪声,从而提取出对局部扰动具有鲁棒性的语义表示。我们还提出了一种孪生校准技术来训练模型,在不同的噪声下做出相同的置信度预测,从而提高模型对抗性扰动的鲁棒性。在四个公开数据集上的实验证明,SCRN 在对抗攻击下相对于最佳基线方法取得了 6.5%-18.25%的绝对准确率改进。此外,在跨领域、跨种类和混合来源场景下展现了卓越的泛化能力。代码可在 https://github.com/CarlanLark/Robust-AIGC-Detector 获取。