MSciNLI：科学自然语言推理的多样基准

ACLApr, 2024

MSciNLI：科学自然语言推理的多样基准

MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference

Mobashir Sadat, Cornelia Caragea

TL;DR科学自然语言推理（NLI）的任务涉及预测从研究文章中提取的两个句子之间的语义关系。本文介绍了多样性科学 NLI 任务，并提出了 MSciNLI，这是一个包含 132,320 个从五个新科学领域中提取的句子配对的数据集。通过精调预训练语言模型和促使大型语言模型建立了 MSciNLI 的强基准。最高的 PLM 和 LLM 基准的宏 F1 分数分别为 77.21% 和 51.77%，说明 MSciNLI 对这两种模型来说都具有挑战性。此外，我们证明了领域转移降低了科学 NLI 模型的性能，从而证明了我们数据集中不同领域的多样性特征。最后，我们在中间任务迁移学习设置中使用了两个科学 NLI 数据集，并展示了它们可以提高科学领域下游任务的性能。我们在 Github 上提供了数据集和代码。

Abstract

The task of scientific natural language inference (NLI) involves predicting the semantic relation between two sentences extracted from research articles. This task was recently proposed along with a new dataset c

scientific natural language inference dataset domain shift pre-trained language models transfer learning

发现论文，激发创造

SciNLI：科学文本自然语言推理语料库

本文介绍了 SciNLI，它是一个用于 NLU 的大型 NLI 数据集，旨在捕捉科学文本中的规范性，并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明，SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18％的 Macro F1 得分和 78.23％的准确度，表明还有很大的改进空间。

Mar, 2022

一种用于 NLI 模型领域泛化的合成数据方法

自然语言推理是语言模型的重要基准任务，在领域泛化上的问题中，我们通过生成多样化的合成 NLI 数据，使得模型在全新的下游测试环境中具有最佳的泛化性能。

Feb, 2024

DocNLI: 一个大规模的文档级自然语言推理数据集

介绍了 DocNLI 数据集，它是基于广泛的 NLP 问题构建的，涵盖了文本的多种类型和文档层级上的 NLI，而不是仅仅句子层级上的。实验表明，即使没有微调，预训练于 DocNLI 上的模型在流行的句子级基准测试中表现良好，并且推理到文档层级上的跨域 NLP 任务具有良好的泛化性能。

Jun, 2021

利用领域外知识提升科学问题领域自然语言推断

本文提出了一种运用知识图谱的结合方法来提高自然语言推理问题（NLI）领域中性能的技术，该技术在文本、图形和文本到图形的模型上均取得了最新的最优表现，并讨论了外部知识在解决 NLI 问题中的实际意义。

Sep, 2018

收集多样化的自然语言推理问题用于句子表示评估

该研究从 13 个不同领域的语料库中抽取出超过 50 万个标记好的内容假设对，并将它们重新组织成一个名为 DNC 的大规模多样化自然语言推理数据集，以探究语句表示在不同类型推理问题中的表现。

Apr, 2018

临床领域自然语言推理的启示

介绍了 MedNLI 数据集的自然语言推理任务 (NLI)，并提出了两种解决深度神经网络模型在特定领域泛化能力差的方法：利用开放域数据集进行迁移学习和结合外部数据和词汇来源的领域知识。实验结果表明，两种方法均可提高模型性能。

Aug, 2018

一种多级有监督对比学习框架用于低资源自然语言推断

本文提出了一种多级有监督对比学习框架 MultiSCL，该框架使用句子级和对级对比学习目标，在低资源自然语言推理任务中区分不同分类的句对。MultiSCL 采用数据增强模块和交叉注意力模块来获取对级表示，经实验证明，在低资源设置中，MultiSCL 的准确率比其他模型平均高 3.1％，且在文本分类的跨域任务中优于以前的最新方法。

May, 2022

通过 NLI 微调改进领域特定检索

该论文研究了自然语言推断数据的微调潜力，以提高信息检索和排名的效果，并通过使用来自波兰最大的电子商务网站和选定的开放领域数据，对英语和波兰语进行了验证。结果显示，使用对比损失和 NLI 数据进行微调可以提高模型在不同任务和语言方面的性能，并且有潜力改善单语和多语模型。最后，研究了嵌入向量的一致性和对齐性，以解释基于 NLI 的微调在域外应用中的效果。

Aug, 2023

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

低资源科学自然语言推理的共同训练

我们提出了一种新的协同训练方法，通过根据分类器的训练动态为远程监督标签分配权重，反映了它们在后续训练轮次中的使用方式。我们通过分配重要权重而不是基于预测置信度的任意阈值过滤示例，使得自动标记的数据得以最大化利用，同时确保噪声标签对模型训练的影响最小化。该方法相对于远程监督基准方法在 Macro F1 上实现了 1.5％的改进，并在几个其他强 SSL 基准方法上取得了显著的改进。我们在 Github 上提供了我们的代码和数据。

Jun, 2024