DocNLI: 一个大规模的文档级自然语言推理数据集

Jun, 2021

DocNLI: 一个大规模的文档级自然语言推理数据集

DocNLI: A Large-scale Dataset for Document-level Natural Language Inference

Wenpeng Yin, Dragomir Radev, Caiming Xiong

TL;DR介绍了DocNLI数据集，它是基于广泛的NLP问题构建的，涵盖了文本的多种类型和文档层级上的NLI，而不是仅仅句子层级上的。实验表明，即使没有微调，预训练于DocNLI上的模型在流行的句子级基准测试中表现良好，并且推理到文档层级上的跨域NLP任务具有良好的泛化性能。

Abstract

natural language inference (NLI) is formulated as a unified framework for solving various nlp problems such as relation extraction, question answering, summarization, etc. It has been studied intensively in the p

发现论文，激发创造

面向语句理解的广覆盖挑战语料库

介绍了一个用于机器学习模型开发和评估的数据集，以句子理解为主题并提到该数据集是目前最大的语料库之一，具有覆盖十种不同英语写作和口语体裁的数据，可评估跨体裁领域适应系统。

Apr, 2017

收集多样化的自然语言推理问题用于句子表示评估

该研究从13个不同领域的语料库中抽取出超过50万个标记好的内容假设对，并将它们重新组织成一个名为DNC的大规模多样化自然语言推理数据集，以探究语句表示在不同类型推理问题中的表现。

Apr, 2018

利用领域外知识提升科学问题领域自然语言推断

本文提出了一种运用知识图谱的结合方法来提高自然语言推理问题（NLI）领域中性能的技术，该技术在文本、图形和文本到图形的模型上均取得了最新的最优表现，并讨论了外部知识在解决NLI问题中的实际意义。

Sep, 2018

e-SNLI: 自然语言推理和自然语言解释

通过扩展自然语言推理数据集并引入人工提供的自然语言解释，我们实现了能够学习人类提供解释的机器学习模型，并将其用于提高模型性能和确定其可靠性的研究。

Dec, 2018

上下文中的自然语言推断--探讨长文本中的上下文推理

介绍一种新的基于长文本语境下的对比学习模型ConTRoL，该模型具有一定难度，能够检测语境推理中的各种类型，并且在测试中结果表明该模型比自然语言处理的最先进模型表现得更好，同时还可进行事实正确性验证任务。

Nov, 2020

IndoNLI：一个印尼自然语言推理数据集

我们提出了IndoNLI数据集，这是第一个人类收集的适用于印度尼西亚语的NLI数据集。我们采用MNLI的数据收集协议，收集了近18K个由众包工人和专家标注的句子对。实验结果表明，在我们的数据中，XLM-R的性能优于其他预训练模型。最佳性能仍然远低于人类性能（13.4％的准确度差距），表明此测试集具有特别的挑战性。此外，我们的分析显示，我们的专家标注数据比众包标注数据更加多样化，注释工件更少。我们希望这个数据集可以帮助加快印尼自然语言处理研究的进展。

Oct, 2021

SciNLI：科学文本自然语言推理语料库

本文介绍了 SciNLI，它是一个用于 NLU 的大型 NLI 数据集，旨在捕捉科学文本中的规范性，并包含107,412个从NLP和计算语言学方面的学术论文中提取的句子对。我们的实验表明，SciNLI比现有的NLI数据集更难分类。使用XLNet的最佳模型仅实现了78.18％的 Macro F1得分和78.23％的准确度，表明还有很大的改进空间。

Mar, 2022

将句子对NLI模型拓展至长文本和聚类的推理能力

本研究探讨了NLI模型的直接零-shot应用，包括分析其对更长和越界输入的鲁棒性，开发新的聚合方法以操作完整文档，并在ContractNLI数据集上达到最先进的表现，并发现NLI分数提供强大的检索信号，并且比常见的相似性基于的方法提供更具相关性的证据提取。同时通过研究文档集群来鉴别不同来源之间的差异和共识，研究发现相同主题的维基百科页面在不同语言中存在实际不一致。

Apr, 2022

R$^2$F: 一个面向文档级自然语言推理的通用检索、阅读和融合框架

本论文提出了 R2F 框架来解决 DOCLNI 的主要挑战：可解释性、长跨度依赖和跨句子推理，并支持多样化的证据检索方法，为每个假设语句从前提中检索出相应的证据语句并进行可信度评估，最后将句子级的结果融合来判断文档之间的关系，实验结果表明 R2F 框架可以获得最先进的性能，而且可以给出更可解释的预测结果。

Oct, 2022

使用对比集的大型语言模型评估：一种实验方法

在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用ELECTRA-small模型进行分析，模型在常规的自然语言推理数据集上达到89.9%的准确率，但在对比集上准确率降低到了72.5%，下降了17%。由此结果导致我们对模型的学习行为进行了详细考察，然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调，将其准确率提升到了85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性，希望能促进创建更包容的数据集，从而推动更为复杂和有效的自然语言推理模型的发展。

Apr, 2024