ADVSCORE：对对抗性基准评估与创建的度量

Jun, 2024

ADVSCORE：对对抗性基准评估与创建的度量

ADVSCORE: A Metric for the Evaluation and Creation of Adversarial Benchmarks

Yoo Yeon Sung, Eve Fleisig, Ishani Mondal, Jordan Lee Boyd-Graber

TL;DR通过 ADVSCORE 量化和揭示数据集的对抗特征，同时使用 ADVSCORE 评估高质量对抗数据集，验证其在愚弄模型而不愚弄人类方面的能力，并揭示人类写作所使用的愚弄模型而不愚弄人类的对抗策略，从而指导揭示语言模型的弱点和生成可靠的对抗样本。

Abstract

adversarial benchmarks validate model abilities by providing samples that fool models but not humans. However, despite the proliferation of datasets that claim to be adversarial, there does not exist an established metric to evaluate how adversarial these datasets are. To address this

adversarial benchmarks advscore adversarial dataset adversarial question answering language model vulnerabilities

发现论文，激发创造

测量对抗数据集

在广泛应用于各个领域的 AI 系统的时代，确保对抗性鲁棒性变得越来越重要，以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查，并选择了几个当前的对抗效应数据集，比较了原始数据与对抗样本之间的分布差异，研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。

Nov, 2023

用于评估阅读理解系统的对抗样本

通过对斯坦福问答数据集（SQuAD）的对抗评估方案，测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性，从而提高模型对于语言的理解水平。

Jul, 2017

对抗性 VQA：评估 VQA 模型鲁棒性的新基准

通过引入 Adversarial VQA 作为一个新的大型 VQA 基准测试，我们发现非专业注释者可以轻松成功攻击 SOTA VQA 模型，而预训练模型和对抗训练方法在新基准测试中效果远不如 VQA v2 基准测试，并且我们的数据集可有效提高模型在其他稳健性 VQA 基准测试中的性能。

Jun, 2021

通过基于分数的优化提高对抗鲁棒性

我们引入了一个名为 ScoreOpt 的新的对抗防御方案，通过在测试时优化对抗样本，向原始清数据在得分优先的方向

Jul, 2023

对抗数据收集在问答中的有效性：一项大规模随机研究的结果

本文通过对问答模型进行大规模对比研究，发现对抗训练对提升模型在对抗数据集上的表现有帮助，但在领域外数据集上却不够稳健；同时，文章进行了对抗数据和标准数据的质量比较，为未来的研究提供指导。

Jun, 2021

人类对抗视觉问答

通过 Adversarial VQA 测试，发现基于现有的 Visual Question Answering 模型的表现还有很大的提升空间，提出了未来研究方向，并希望 Adversarial VQA 测试能帮助推动 VQA 领域的进步和发展。

Jun, 2021

GREAT Score：使用生成模型对对抗扰动的全局鲁棒性进行评估

本文提出了一个称为 GREAT Score 的新框架，用于利用生成模型对对抗扰动进行全球鲁棒性评估。该方法具有高效性、可扩展性、适用于隐私敏感的黑盒模型等多个优点。

Apr, 2023

FVQA 2.0：将对抗样本引入基于事实的视觉问答

FVQA 2.0 数据集添加了敌对测试问题，以解决此数据集高度不平衡及集中在其相关知识图谱的部分问题。实验结果表明，原始数据集训练的系统容易受到敌对样本的影响，但通过无需人工标记的增强方法可以减少此类漏洞。

Mar, 2023

通过基于分数的对抗图像生成评估鲁棒性

此研究介绍了基于评分的对抗生成（ScoreAG）框架，利用评分模型生成超越 $p$ 范数约束的对抗样本，既能保持图像的核心语义，又能生成逼真的对抗样本，进一步提高分类器的鲁棒性。通过广泛的实证评估，ScoreAG 在多个基准测试上与当前最先进的攻击和防御方法表现相当，强调了对抗样本在语义边界上的研究的重要性。

Oct, 2023

伪新闻检测模型的对抗性基准测试

本文提出了一个对抗性基准测试，旨在测试虚假新闻检测器推理现实世界事实的能力，使用 BERT 分类器 fine-tuned 在 LIAR arXiv:arch-ive/1705648 和 Kaggle Fake-News 数据集上，结果显示这两种模型在处理组合语义、词汇关系和修饰符等方面的意思变化上存在失败的情况。这表明虚假新闻检测器需要与其他事实检查方法一起使用。

Jan, 2022