愚我无二：基于维基百科游戏化的蕴含关系

ACLApr, 2021

愚我无二：基于维基百科游戏化的蕴含关系

Fool Me Twice: Entailment from Wikipedia Gamification

Julian Martin Eisenschlos, Bhuwan Dhingra, Jannis Bulian, Benjamin Börschinger, Jordan Boyd-Graber

TL;DR通过一款多人游戏收集了大量具有挑战性的蕴涵数据对集合 FoolMeTwice，通过游戏化大幅降低了使用 “捷径” 解决问题的数量，并得出高质量的数据，其玩法之间的竞争促进了更多多样化策略的运用，如时间推理和转移无关证据。

Abstract

We release FoolMeTwice (FM2 for short), a large dataset of challenging entailment pairs collected through a fun multi-player game.

entailment dataset multi-player game gamification evidence retrieval

发现论文，激发创造

针对事实提取和验证的对抗攻击

本文的 FEVER2.0 基准测试通过生成针对系统的对抗性攻击探索了 NN 模型在事实提取和验证任务中的鲁棒性，结果表明深度神经网络在处理 pattren 异常的样本时效果较差，提出对这类攻击进行研究有助于构建更健壮的事实检查模型，同时建议扩展数据集。

Mar, 2019

WiCE：维基百科索赔的真实世界蕴含关系

提出了 WiCE 文本蕴涵数据集，该数据集围绕在文本中验证声明，建立在维基百科的现实声明和证据基础之上，并通过 GPT-3 将假设分解成子句单元，每个单元都与源文档中的证据句子的一个子集标记。通过这个数据集，我们展示了真实声明涉及具有挑战性的验证问题，并对这个数据集上现有方法进行了基准测试。此外，我们表明，通过 GPT-3 分解声明可以在各个领域上提高蕴含模型的性能。

Mar, 2023

CommonsenseQA 2.0：通过游戏化揭示 AI 的局限性

本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题，使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0，该数据集对比现有的深度学习模型难度更大（例如 T5-based Unicorn，精度达到 70.2%，而 GPT-3 只有 52.9%），但与人类表现相差甚远（94.1%）。

Jan, 2022

在蕴涵图挖掘中引入时间信息

本文提出了一种新颖的方法，通过将时间性注入蕴涵图来解决假的蕴涵问题。我们专注于体育领域，通过不同的结果，多次运用同一对团队的情景，构建了一个无监督模型，旨在学习像胜利 / 失败导致比赛一样的蕴涵关系，同时避免学习类似获胜不蕴含失败的非蕴涵关系。本文通过手工构建的数据集对模型进行了评估，显示出采用时间间隔并在其周围施加时间窗口的有效策略。

Sep, 2021

多前提自然语言推理

该论文定义了一项新的文本蕴含任务，要求对多个前提句子进行推断，提出了一个新的数据集来最小化平凡的词汇推理，强调对日常事件的知识，并为文本蕴含提出了一个更具挑战性的环境；同时评估了多种强力神经网络基线，并分析多个前提任务与标准文本含义的区别。

Oct, 2017

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

通过对抗性干扰教授语法

介绍了几个基于 SNLI 或 FEVER 自然蕴涵示例的合成转换的数据集，用以教授语法和单词顺序等方面的知识；证明了多数流行的蕴涵模型没有意识到这些句法上的区别可改变含义，而强化训练后部分模型能够学习正确比较句法。

Oct, 2018

使用蕴涵树解释答案

通过生成包含多前提蕴含步骤（即知识事实到问题答案的中间推理结论）的蕴含树形式的解释，本研究提出第一个含有多步蕴含树的数据集 ENTAILMENTBANK，用于培训模型执行三项解释任务。结果表明，当输入包含相关句子时（例如，任务（a）的 35% 结果完美），强大的语言模型能部分地解决这些任务，并具有推广到其他领域的迹象。

Apr, 2021

AdvEntuRe: 带知识引导实例的文本蕴涵对抗训练

本文提出了两种互补的方法来解决在受限监督（5K-10K 训练样本）的情况下学习文本蕴涵模型的问题：一是采用知识引导的对抗样本生成器来通过仅采用少量规则模板将大型词汇资源纳入蕴涵模型中；二是提出了首个采用自然语言例句生成器进行训练的 GAN-style 方法，以使蕴涵模型 - 判别器 - 更加稳健。在两个蕴涵数据集上进行的实证表明，所提出的方法在 SciTail 上将准确度提高了 4.7% ，在 SNLI 的 1% 训练子样本上将准确率提高了 2.8%。值得注意的是，即使是一个手写规则 “否定”，也将 SNLI 中否定样例的准确度提高了 6.1%。

May, 2018

EntailE: 建立在常识知识图谱完备性基础上的文本蕴含

本文提出了一种采用文本蕴含来找到共享常识知识图谱节点之间的隐式蕴含关系的方法，以有效地增加相同概念类中节点之间连接的子图密度，从而提高 CSKG 完成任务的性能。

Feb, 2024