面向语句理解的广覆盖挑战语料库
介绍了 DocNLI 数据集,它是基于广泛的 NLP 问题构建的,涵盖了文本的多种类型和文档层级上的 NLI,而不是仅仅句子层级上的。实验表明,即使没有微调,预训练于 DocNLI 上的模型在流行的句子级基准测试中表现良好,并且推理到文档层级上的跨域 NLP 任务具有良好的泛化性能。
Jun, 2021
通过引入 Stanford 自然语言推理语料库,我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏,该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对,包含 570k 个句子对,是同类资源的两个量级以上,在规模方面取得了重大进展,这使得词汇分类器优于一些复杂的现有蕴含模型,并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。
Aug, 2015
本文介绍了 RepEval 2017 共享任务的结果,该任务评估了神经网络句子表示学习模型在 MultiNLI 语料库上的表现。结果表明,所有五个参赛团队都击败了以前的标记方法。最佳单一模型使用堆叠 BiLSTM 和残差连接来提取句子特征,并在与体裁匹配的测试集上达到了 74.5% 的准确率。结果表明,提交的所有系统对于句子意义的领域独立表示都有着合理的学习能力。
Jul, 2017
本文介绍了 SciNLI,它是一个用于 NLU 的大型 NLI 数据集,旨在捕捉科学文本中的规范性,并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明,SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18%的 Macro F1 得分和 78.23%的准确度,表明还有很大的改进空间。
Mar, 2022
该研究从 13 个不同领域的语料库中抽取出超过 50 万个标记好的内容假设对,并将它们重新组织成一个名为 DNC 的大规模多样化自然语言推理数据集,以探究语句表示在不同类型推理问题中的表现。
Apr, 2018
本研究提出了一种新的自然语言推理应用 —— 针对合同的 “文档级自然语言推理”,解决了合同审查过于耗时和过于昂贵的问题,并标注并发布了目前最大的包括 607 个合同的语料库。研究还指出,以往的模型在该任务上表现不佳,而研究者引入了一种新的算法,并通过多标签分类和更复杂的上下文分割方法使该任务取得了显著进展,并认为这一领域还有很大的改进空间。
Oct, 2021
介绍一种新的基于长文本语境下的对比学习模型 ConTRoL,该模型具有一定难度,能够检测语境推理中的各种类型,并且在测试中结果表明该模型比自然语言处理的最先进模型表现得更好,同时还可进行事实正确性验证任务。
Nov, 2020
自然语言推理是语言模型的重要基准任务,在领域泛化上的问题中,我们通过生成多样化的合成 NLI 数据,使得模型在全新的下游测试环境中具有最佳的泛化性能。
Feb, 2024
本文提出了第一个用于混合语言自然语言推理的数据集,其中使用来自印地语电影和双语人士的双语代码混合作为前提和假设,并使用标准的 mBERT 算法对数据集进行了评估。
Apr, 2020