通过对抗性干扰教授语法

EMNLPOct, 2018

Teaching Syntax by Adversarial Distraction

PDF

Juho Kim, Christopher Malon, Asim Kadav

TL;DR介绍了几个基于 SNLI 或 FEVER 自然蕴涵示例的合成转换的数据集，用以教授语法和单词顺序等方面的知识；证明了多数流行的蕴涵模型没有意识到这些句法上的区别可改变含义，而强化训练后部分模型能够学习正确比较句法。

Abstract

Existing entailment datasets mainly pose problems which can be answered without attention to grammar or →

entailment datasets syntax grammar word order

发现论文，激发创造

AdvEntuRe: 带知识引导实例的文本蕴涵对抗训练

本文提出了两种互补的方法来解决在受限监督（5K-10K 训练样本）的情况下学习文本蕴涵模型的问题：一是采用知识引导的对抗样本生成器来通过仅采用少量规则模板将大型词汇资源纳入蕴涵模型中；二是提出了首个采用自然语言例句生成器进行训练的 GAN-style 方法，以使蕴涵模型 - 判别器 - 更加稳健。在两个蕴涵数据集上进行的实证表明，所提出的方法在 SciTail 上将准确度提高了 4.7% ，在 SNLI 的 1% 训练子样本上将准确率提高了 2.8%。值得注意的是，即使是一个手写规则 “否定”，也将 SNLI 中否定样例的准确度提高了 6.1%。

May, 2018

句法数据增强提高推理启发健壮性

本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现，经过尝试，通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73，而对 MNLI 测试集影响不大，表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。

Apr, 2020

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

使用语法搜索和示例引导关系抽取器

本文提出了一种用于快速启动训练数据集的过程，利用搜索引擎在句法图上获取正例，我们将此技术应用于 TACRED 和 DocRED 的关系，其结果模型与手动注释数据和远程监督方法所训练的模型相比具有竞争力，并且优于使用 NLG 数据增强技术所训练模型的模型。扩展基于搜索的方法使用 NLG 方法可以进一步提高结果。

Feb, 2021

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

语法增强的预训练模型

文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务，该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明，该模型取得了当前最好的表现效果。

Dec, 2020

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

通过对抗性改写任务提升释义检测

通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务（Adversarial Paraphrasing Task， APT），以更好地检测句级别的意义相等，从而加速数据集生成并提高同义句识别模型的性能。

Jun, 2021

用于机器翻译和自然语言理解的语法注入 Transformer 和 BERT 模型

本论文研究了通过将句法信息与深度学习模型相结合，提高自然语言处理任务的性能表现，对多特征的语法 - Transformer 进行了测试，发现在完整数据集和部分数据集中，BLEU 得分都有明显提升，同时，在 GLUE 基准测试中，语法嵌入的 BERT 微调在几个下游任务中表现优于基线。

Nov, 2019

朝向视觉语法理解

通过改变自然图像的句法（例如交换一个脸部的眼睛和鼻子）来调查深度神经网络对此类句法异常的敏感性，并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练，我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。

Jan, 2024