低资源科学自然语言推理的共同训练

ACLJun, 2024

低资源科学自然语言推理的共同训练

Co-training for Low Resource Scientific Natural Language Inference

Mobashir Sadat, Cornelia Caragea

TL;DR我们提出了一种新的协同训练方法，通过根据分类器的训练动态为远程监督标签分配权重，反映了它们在后续训练轮次中的使用方式。我们通过分配重要权重而不是基于预测置信度的任意阈值过滤示例，使得自动标记的数据得以最大化利用，同时确保噪声标签对模型训练的影响最小化。该方法相对于远程监督基准方法在 Macro F1 上实现了 1.5％的改进，并在几个其他强 SSL 基准方法上取得了显著的改进。我们在 Github 上提供了我们的代码和数据。

Abstract

scientific natural language inference (nli) is the task of predicting the semantic relation between a pair of sentences extracted from research articles. The automatic annotation method based on →

scientific natural language inference nli distant supervision co-training method label noise

发现论文，激发创造

一种多级有监督对比学习框架用于低资源自然语言推断

本文提出了一种多级有监督对比学习框架 MultiSCL，该框架使用句子级和对级对比学习目标，在低资源自然语言推理任务中区分不同分类的句对。MultiSCL 采用数据增强模块和交叉注意力模块来获取对级表示，经实验证明，在低资源设置中，MultiSCL 的准确率比其他模型平均高 3.1％，且在文本分类的跨域任务中优于以前的最新方法。

May, 2022

自然语言推理的对偶级别监督对比学习

本文提出一种基于对偶句子级别的监督对比学习（PairSCL）方法，采用交叉注意力机制学习句子对的联合表示，并使用对比学习目标来区分不同类别的句子对，在两个公共 NLI 数据集上，PairSCL 的准确性平均优于其他方法 2.1％，并在文本分类的七个转移任务上超过了先前的最新方法。

Jan, 2022

学习无标注数据推理：一种半监督学习方法用于强健的自然语言推理

本文提出了一种结合无标注数据的 NLI 半监督学习方法，其中使用了条件语言模型 BART 生成假设句子，以减少对人类注释的依赖，实验结果显示该方法能够成功地利用无标注数据并在低资源环境下显著提高四个 NLI 评测集的性能。

Nov, 2022

自然语言推理提升远程监督关系抽取

本文提出了一种新的 DSRE-NLI 框架，该框架利用现有知识库的远程监督和预训练语言模型的间接监督，通过半自动关系语言表达机制为间接监督提供能量，进而巩固远程注释以便于多分类 RE 模型，并通过数据整合策略实现训练数据的质量提高，大量实验证明该框架显著提高了远程监督 RE 基准数据集的性能（高达 7.73％的 F1）

Jul, 2022

一种无需特定语言训练数据的深度自然语言推理预测器

我们提出了一种 NLP 技术，利用通用翻译数据集和知识蒸馏技术，通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理，该技术在多个任务上展现了普适性。

Sep, 2023

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

应用基于制图的新课程学习方法于 RoNLI：首个罗马尼亚自然语言推理语料库

自然语言推理 (NLI) 是一个活跃研究的领域，通过识别句子对中所呈现的蕴涵关系来代表自然语言理解。本文提出了第一个罗马尼亚语 NLI 语料库（RoNLI），其中包括 58K 个通过远程监督获取的训练句子对，以及手动注释了正确标签的 6K 个验证和测试句子对。我们进行了一系列基于远程学习的多个机器学习方法的实验，从基于词嵌入的浅层模型到基于 Transformer 的神经网络，以确立一组有竞争力的基准模型。此外，我们通过采用基于数据制图的新的课程学习策略，改进了最佳模型。我们提供了数据集和用于重现基准模型的代码。

May, 2024

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

将句子对 NLI 模型拓展至长文本和聚类的推理能力

本研究探讨了 NLI 模型的直接零 - shot 应用，包括分析其对更长和越界输入的鲁棒性，开发新的聚合方法以操作完整文档，并在 ContractNLI 数据集上达到最先进的表现，并发现 NLI 分数提供强大的检索信号，并且比常见的相似性基于的方法提供更具相关性的证据提取。同时通过研究文档集群来鉴别不同来源之间的差异和共识，研究发现相同主题的维基百科页面在不同语言中存在实际不一致。

Apr, 2022

自然语言推理的标记级别解释生成

本文提出一种使用简单 LSTM 架构的零样本句子对标记来生成自然语言推理的 token 级解释的方法，并使用 SNLI 数据集进行了实验，与黑盒方法相比，白盒方法的匹配精度较低。

Apr, 2019