用于评估阅读理解系统的对抗样本

EMNLPJul, 2017

用于评估阅读理解系统的对抗样本

Adversarial Examples for Evaluating Reading Comprehension Systems

Robin Jia, Percy Liang

TL;DR通过对斯坦福问答数据集（SQuAD）的对抗评估方案，测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性，从而提高模型对于语言的理解水平。

Abstract

Standard accuracy metrics indicate that reading comprehension systems are making rapid progress, but the extent to which these systems truly understand language remains unclear. To reward systems with real language unde

reading comprehension language understanding adversarial evaluation stanford question answering dataset model accuracy

发现论文，激发创造

数字之力：通过每个示例使用四个对抗句进行微调的强大阅读理解

通过添加对抗性句子来攻击阅读理解模型并测试新模型 ELECTRA-Small 的抗性，发现将模型分别在一句和五句对抗性句子上进行微调可以提高其对抗攻击的鲁棒性。

Jan, 2024

对抗性智力问答写作的新界面

通过引入一种收集对抗性人工编写的问题的界面，我们利用人类生成的数据来开发让机器更好应对复杂任务的对抗性数据集，这对于开发问答人工智能是至关重要的。我们的界面不仅为创新的 Quiz Bowl AI 项目 QANTA 收集训练数据，同时也是为问答系统未来对抗性数据收集的一个概念验证。

Mar, 2024

知道你不知道什么：SQuAD 无法回答的问题

SQuAD 2.0 is a dataset that combines existing SQuAD data with over 50,000 unanswerable questions to test extractive reading comprehension systems' abilities to determine when no answer is supported, resulting in a challenging natural language understanding task for existing models that previously achieved only 66% F1 on SQuAD 2.0.

Jun, 2018

通过对抗训练实现强健的机器阅读理解模型

通过提出一个新的对抗生成算法 AddSentDiverse 和改进模型的语义关系学习能力，作者在 Stanford 问题问答数据集上实现了一个近 36.5% 的 F1 得分提升并提高了模型的鲁棒性。

Apr, 2018

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

对抗性环境下的 Q&A 演员 - 评论家网络

该论文介绍了一种基于强化学习框架，将生成对抗性数据的目的与修改现有架构以建立稳健性的两个重点领域相结合的方法，使用 Adversarial SQuAD “Add One Sent” 数据集表明该方法在保护免受对抗性攻击方面有某些有希望的迹象。

Jan, 2022

神经阅读理解过低敏感度

研究表明精度高的阅读理解模型倾向于依赖于所提供的有关输入中的模式，而对该模型进行噪声对抗性攻击、数据扩增和对抗性训练可以提高其鲁棒性和泛化性能，并改善在 train/evaluation distribution mismatch 时的结果。

Feb, 2020

未能回答问题对机器阅读理解模型鲁棒性的影响

本文研究了使用 SQuAD 2.0 中不可回答的问题对预先训练的语言模型进行微调，以提高其对抗攻击的鲁棒性。结果表明，在 SQuAD 2.0 上进行微调可以显著提高模型的鲁棒性，并且 SQuAD 2.0 还会影响模型学习到的内容。

Jan, 2023

SQuAD: 文本机器理解 10 万 + 问题

本研究介绍了 Stanford Question Answering Dataset (SQuAD)，一种包含超过 100,000 个问题的阅读理解数据集，旨在研究回答这些问题所需要的类型推理方式，研究使用依赖和组成树建立了强大的逻辑回归模型，并在数据集上获得了 51.0% 的 F1 分数。

Jun, 2016

通过对抗域适应缓解语音识别误差对口语问答的影响

该研究提出利用对抗模型来适应 ASR 错误，减少其对口语问答系统的影响，实验证明其效果优于之前的最佳模型。

Apr, 2019