通过对抗性干扰教授语法
本文提出了两种互补的方法来解决在受限监督(5K-10K 训练样本)的情况下学习文本蕴涵模型的问题:一是采用知识引导的对抗样本生成器来通过仅采用少量规则模板将大型词汇资源纳入蕴涵模型中;二是提出了首个采用自然语言例句生成器进行训练的 GAN-style 方法,以使蕴涵模型 - 判别器 - 更加稳健。在两个蕴涵数据集上进行的实证表明,所提出的方法在 SciTail 上将准确度提高了 4.7% ,在 SNLI 的 1% 训练子样本上将准确率提高了 2.8%。值得注意的是,即使是一个手写规则 “否定”,也将 SNLI 中否定样例的准确度提高了 6.1%。
May, 2018
本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现,经过尝试,通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73,而对 MNLI 测试集影响不大,表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。
Apr, 2020
本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响,并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类,就能产生 64% 的准确率。
Jun, 2019
本文提出了一种用于快速启动训练数据集的过程,利用搜索引擎在句法图上获取正例,我们将此技术应用于 TACRED 和 DocRED 的关系,其结果模型与手动注释数据和远程监督方法所训练的模型相比具有竞争力,并且优于使用 NLG 数据增强技术所训练模型的模型。扩展基于搜索的方法使用 NLG 方法可以进一步提高结果。
Feb, 2021
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务,该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明,该模型取得了当前最好的表现效果。
Dec, 2020
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
Jun, 2021
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
通过改变自然图像的句法(例如交换一个脸部的眼睛和鼻子)来调查深度神经网络对此类句法异常的敏感性,并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练,我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。
Jan, 2024