愚我无二:基于维基百科游戏化的蕴含关系
本文的 FEVER2.0 基准测试通过生成针对系统的对抗性攻击探索了 NN 模型在事实提取和验证任务中的鲁棒性,结果表明深度神经网络在处理 pattren 异常的样本时效果较差,提出对这类攻击进行研究有助于构建更健壮的事实检查模型,同时建议扩展数据集。
Mar, 2019
提出了 WiCE 文本蕴涵数据集,该数据集围绕在文本中验证声明,建立在维基百科的现实声明和证据基础之上,并通过 GPT-3 将假设分解成子句单元,每个单元都与源文档中的证据句子的一个子集标记。通过这个数据集,我们展示了真实声明涉及具有挑战性的验证问题,并对这个数据集上现有方法进行了基准测试。此外,我们表明,通过 GPT-3 分解声明可以在各个领域上提高蕴含模型的性能。
Mar, 2023
本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题,使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0,该数据集对比现有的深度学习模型难度更大(例如 T5-based Unicorn,精度达到 70.2%,而 GPT-3 只有 52.9%),但与人类表现相差甚远(94.1%)。
Jan, 2022
本文提出了一种新颖的方法,通过将时间性注入蕴涵图来解决假的蕴涵问题。我们专注于体育领域,通过不同的结果,多次运用同一对团队的情景,构建了一个无监督模型,旨在学习像胜利 / 失败导致比赛一样的蕴涵关系,同时避免学习类似获胜不蕴含失败的非蕴涵关系。本文通过手工构建的数据集对模型进行了评估,显示出采用时间间隔并在其周围施加时间窗口的有效策略。
Sep, 2021
该论文定义了一项新的文本蕴含任务,要求对多个前提句子进行推断,提出了一个新的数据集来最小化平凡的词汇推理,强调对日常事件的知识,并为文本蕴含提出了一个更具挑战性的环境;同时评估了多种强力神经网络基线,并分析多个前提任务与标准文本含义的区别。
Oct, 2017
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
介绍了几个基于 SNLI 或 FEVER 自然蕴涵示例的合成转换的数据集,用以教授语法和单词顺序等方面的知识;证明了多数流行的蕴涵模型没有意识到这些句法上的区别可改变含义,而强化训练后部分模型能够学习正确比较句法。
Oct, 2018
通过生成包含多前提蕴含步骤(即知识事实到问题答案的中间推理结论)的蕴含树形式的解释,本研究提出第一个含有多步蕴含树的数据集 ENTAILMENTBANK,用于培训模型执行三项解释任务。结果表明,当输入包含相关句子时(例如,任务(a)的 35% 结果完美),强大的语言模型能部分地解决这些任务,并具有推广到其他领域的迹象。
Apr, 2021
本文提出了两种互补的方法来解决在受限监督(5K-10K 训练样本)的情况下学习文本蕴涵模型的问题:一是采用知识引导的对抗样本生成器来通过仅采用少量规则模板将大型词汇资源纳入蕴涵模型中;二是提出了首个采用自然语言例句生成器进行训练的 GAN-style 方法,以使蕴涵模型 - 判别器 - 更加稳健。在两个蕴涵数据集上进行的实证表明,所提出的方法在 SciTail 上将准确度提高了 4.7% ,在 SNLI 的 1% 训练子样本上将准确率提高了 2.8%。值得注意的是,即使是一个手写规则 “否定”,也将 SNLI 中否定样例的准确度提高了 6.1%。
May, 2018
本文提出了一种采用文本蕴含来找到共享常识知识图谱节点之间的隐式蕴含关系的方法,以有效地增加相同概念类中节点之间连接的子图密度,从而提高 CSKG 完成任务的性能。
Feb, 2024