上下文中的自然语言推断 -- 探讨长文本中的上下文推理
本篇论文介绍了一个新的 NLI4CT 资源,包括两个主要任务:确定自然语言陈述和 CTR 之间的推理关系以及检索支持事实以证明预测关系。该资源暴露了现有 NLI 模型的局限性,为 CTR 推理提供了基础,大大推进了 CTR 的个性化医疗领域的研究。
May, 2023
本研究探讨了 NLI 模型的直接零 - shot 应用,包括分析其对更长和越界输入的鲁棒性,开发新的聚合方法以操作完整文档,并在 ContractNLI 数据集上达到最先进的表现,并发现 NLI 分数提供强大的检索信号,并且比常见的相似性基于的方法提供更具相关性的证据提取。同时通过研究文档集群来鉴别不同来源之间的差异和共识,研究发现相同主题的维基百科页面在不同语言中存在实际不一致。
Apr, 2022
本研究提出了一种新的自然语言推理应用 —— 针对合同的 “文档级自然语言推理”,解决了合同审查过于耗时和过于昂贵的问题,并标注并发布了目前最大的包括 607 个合同的语料库。研究还指出,以往的模型在该任务上表现不佳,而研究者引入了一种新的算法,并通过多标签分类和更复杂的上下文分割方法使该任务取得了显著进展,并认为这一领域还有很大的改进空间。
Oct, 2021
介绍了 DocNLI 数据集,它是基于广泛的 NLP 问题构建的,涵盖了文本的多种类型和文档层级上的 NLI,而不是仅仅句子层级上的。实验表明,即使没有微调,预训练于 DocNLI 上的模型在流行的句子级基准测试中表现良好,并且推理到文档层级上的跨域 NLP 任务具有良好的泛化性能。
Jun, 2021
该研究从 13 个不同领域的语料库中抽取出超过 50 万个标记好的内容假设对,并将它们重新组织成一个名为 DNC 的大规模多样化自然语言推理数据集,以探究语句表示在不同类型推理问题中的表现。
Apr, 2018
本文提出了一种运用知识图谱的结合方法来提高自然语言推理问题(NLI)领域中性能的技术,该技术在文本、图形和文本到图形的模型上均取得了最新的最优表现,并讨论了外部知识在解决 NLI 问题中的实际意义。
Sep, 2018
本文介绍了 SciNLI,它是一个用于 NLU 的大型 NLI 数据集,旨在捕捉科学文本中的规范性,并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明,SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18%的 Macro F1 得分和 78.23%的准确度,表明还有很大的改进空间。
Mar, 2022
本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确,并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对,进而将 QA 和 NLI 数据集结合以训练 NLI 模型,以此提高 QA 模型的准确性和置信度。
Apr, 2021
该论文介绍了使用 U.S. 法律意见书构建的 LawngNLI 数据集,可用于研究自然语言推断在法律领域中的应用,包括基于长前提数据集的领域内泛化基准和基于蕴含推理的检索。
Dec, 2022