通过对抗训练实现强健的机器阅读理解模型

ACLApr, 2018

通过对抗训练实现强健的机器阅读理解模型

Robust Machine Comprehension Models via Adversarial Training

Yicheng Wang, Mohit Bansal

TL;DR通过提出一个新的对抗生成算法 AddSentDiverse 和改进模型的语义关系学习能力，作者在 Stanford 问题问答数据集上实现了一个近 36.5% 的 F1 得分提升并提高了模型的鲁棒性。

Abstract

It is shown that many published models for the Stanford Question Answering Dataset (Rajpurkar et al., 2016) lack robustness, suffering an over 50% decrease in F1 score during adversarial evaluation based on the A

stanford question answering dataset robustness adversarial evaluation addsentdiverse semantic-relationship learning

发现论文，激发创造

对抗性环境下的 Q&A 演员 - 评论家网络

该论文介绍了一种基于强化学习框架，将生成对抗性数据的目的与修改现有架构以建立稳健性的两个重点领域相结合的方法，使用 Adversarial SQuAD “Add One Sent” 数据集表明该方法在保护免受对抗性攻击方面有某些有希望的迹象。

Jan, 2022

数字之力：通过每个示例使用四个对抗句进行微调的强大阅读理解

通过添加对抗性句子来攻击阅读理解模型并测试新模型 ELECTRA-Small 的抗性，发现将模型分别在一句和五句对抗性句子上进行微调可以提高其对抗攻击的鲁棒性。

Jan, 2024

用合成对抗数据生成提高问答模型的鲁棒性

本文提出一种使用合成对抗数据生成的方法来提高问题回答模型对人工对手的鲁棒性。通过将合成数据引入训练，成功地将对人工对手的鲁棒性提高了大约一倍。

Apr, 2021

神经阅读理解过低敏感度

研究表明精度高的阅读理解模型倾向于依赖于所提供的有关输入中的模式，而对该模型进行噪声对抗性攻击、数据扩增和对抗性训练可以提高其鲁棒性和泛化性能，并改善在 train/evaluation distribution mismatch 时的结果。

Feb, 2020

RobustSentEmbed: 使用对抗自监督对比学习获得鲁棒的句子嵌入

本文介绍了 RobustSentEmbed，这是一个自监督的句子嵌入框架，旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数，RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性，尤其是对于各种对抗性攻击，BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。

Mar, 2024

用于评估阅读理解系统的对抗样本

通过对斯坦福问答数据集（SQuAD）的对抗评估方案，测试阅读理解系统对插入的语义、语法错误的诈骗问题的正确性，从而提高模型对于语言的理解水平。

Jul, 2017

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

提高任务导向对话系统的鲁棒性

本文针对任务导向的对话系统中的意图识别和参数标记存在的过度敏感问题，介绍了构建对抗性测试集和采用对抗性训练方法和数据增强来提高模型健壮性的解决方案。实验结果表明，这些技术的组合能显著提高系统的健壮性。

Nov, 2019

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023