RAID:用于机器生成文本检测器鲁棒评估的共享基准测试
RADAR, a framework for Robust AI-text Detection via Adversarial Training, significantly outperforms existing AI-text detection methods by using adversarial training to improve the capability of detecting AI-generated text, especially in cases where paraphrasing is used.
Jul, 2023
我们发现,在重新编写任务中,大型语言模型(LLMs)更有可能修改人类撰写的文本,而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高,从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法,我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型(包括学术和商业模型)在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分,最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征,与黑盒 LLMs 兼容,并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。
Jan, 2024
该论文介绍了 Real-time Adaptive 和 Interpretable Detection(RAID)算法,该算法能够适应多元动态过程中的非静态效应,从而提高检测精度并改进根本原因的隔离控制。
Apr, 2023
本文旨在探索检测针对 NLP 模型的对抗攻击的方法,提出基于密度估计的 Competitive Baseline,并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集,以便进一步研究。
Mar, 2022
本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。
Apr, 2020
通过对大规模语言模型、机器生成文本检测器、恶意攻击、鲁棒性和缺陷进行全面研究,我们揭示了现有检测器在不同攻击形式下的脆弱性,并提出了初步的解决方案,以提高其鲁棒性。
Feb, 2024
为了建立标准化的对抗性鲁棒性基准,我们考虑了图片分类任务,并引入了允许的模型限制,使用 AutoAttack 进行评估,同时提供 80 多种鲁棒模型的开源库,分析了鲁棒性对分布偏移、平滑性等性能的影响。
Oct, 2020
本文介绍了一种基于文本分类的检测系统『BODEGA』,用于检测虚假新闻、社交媒体机器人和宣传等误导信息。另外,作者们系统地测试了主流文本分类器的鲁棒性,并发现在某些情况下,即使输入文本略作修改,也会误导分类器的判断。
Mar, 2023
介绍了 RU-AI 数据集,该数据集是一个大规模的多模态数据集,旨在鲁棒且高效地检测文本、图像和语音中的机器生成内容;提出了一个统一模型,该模型融合了多模态嵌入模块和多层感知器网络,能够有效确定数据的来源(即原始数据样本还是机器生成的数据)。
Jun, 2024
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023