RAID：用于机器生成文本检测器鲁棒评估的共享基准测试

ACLMay, 2024

RAID：用于机器生成文本检测器鲁棒评估的共享基准测试

RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors

Liam Dugan, Alyssa Hwang, Filip Trhlik, Josh Magnus Ludan, Andrew Zhu...

TL;DR通过使用最大、最具挑战性的基准数据集 RAID，评估了机器生成文本检测器的领域外和对抗鲁棒性，并发现当前的检测器在对抗攻击、采样策略变化、重复惩罚和未知生成模型方面容易被欺骗。我们发布了数据集和工具，以促进进一步探索检测器的鲁棒性。

Abstract

Many commercial and open-source models claim to detect machine-generated text with very high accuracy (99\% or higher). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging -- lacking variations in →

machine-generated text detection benchmark dataset raid adversarial attacks sampling strategy

发现论文，激发创造

RADAR: 鲁棒的 AI 文本检测方法

RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.

Jul, 2023

Raidar: 基于生成式人工智能的检测重写

我们发现，在重新编写任务中，大型语言模型（LLMs）更有可能修改人类撰写的文本，而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高，从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法，我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型（包括学术和商业模型）在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分，最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征，与黑盒 LLMs 兼容，并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。

Jan, 2024

实时物联网系统中的新奇检测可适应和可解释框架

该论文介绍了 Real-time Adaptive 和 Interpretable Detection（RAID）算法，该算法能够适应多元动态过程中的非静态效应，从而提高检测精度并改进根本原因的隔离控制。

Apr, 2023

通过鲁棒密度估计进行文本分类中词语对抗样本的检测：基准和基础线

本文旨在探索检测针对 NLP 模型的对抗攻击的方法，提出基于密度估计的 Competitive Baseline，并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集，以便进一步研究。

Mar, 2022

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

机器生成文本检测器在攻击下的鲁棒性压力测试

通过对大规模语言模型、机器生成文本检测器、恶意攻击、鲁棒性和缺陷进行全面研究，我们揭示了现有检测器在不同攻击形式下的脆弱性，并提出了初步的解决方案，以提高其鲁棒性。

Feb, 2024

一个标准的对抗鲁棒性基准测试 RobustBench

为了建立标准化的对抗性鲁棒性基准，我们考虑了图片分类任务，并引入了允许的模型限制，使用 AutoAttack 进行评估，同时提供 80 多种鲁棒模型的开源库，分析了鲁棒性对分布偏移、平滑性等性能的影响。

Oct, 2020

BODEGA: 识别可信度中对抗样本生成的基准评估

本文介绍了一种基于文本分类的检测系统『BODEGA』，用于检测虚假新闻、社交媒体机器人和宣传等误导信息。另外，作者们系统地测试了主流文本分类器的鲁棒性，并发现在某些情况下，即使输入文本略作修改，也会误导分类器的判断。

Mar, 2023

RU-AI：一个用于机器生成内容检测的大型多模态数据集

介绍了 RU-AI 数据集，该数据集是一个大规模的多模态数据集，旨在鲁棒且高效地检测文本、图像和语音中的机器生成内容；提出了一个统一模型，该模型融合了多模态嵌入模块和多层感知器网络，能够有效确定数据的来源（即原始数据样本还是机器生成的数据）。

Jun, 2024

MULTITuDE: 大规模多语言机器生成文本检测基准

我们引入了一个新的基准数据集 MULTITuDE，用于多语言机器生成文本检测，包括 11 种语言（ar，ca，cs，de，en，es，nl，pt，ru，uk 和 zh）的 74,081 个真实和机器生成的文本，由 8 个多语言 LLM 生成。利用这个基准，我们比较了零样本（统计和黑盒）和微调检测器的性能，并考虑多语言性，评估了这些检测器在未见过的语言（语言相似和不相似）和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。

Oct, 2023