自然语言推理中的事件语义和程度语义结合

Nov, 2020

自然语言推理中的事件语义和程度语义结合

Combining Event Semantics and Degree Semantics for Natural Language Inference

Izumi Haruta, Koji Mineshima, Daisuke Bekki

TL;DR通过结合事件语义和程度语义以及它们与词汇知识的相互作用来处理自然语言推理中的各种语言现象，并且通过各种NLI数据集的评估，表明该系统在与以前的基于逻辑和基于深度学习的系统相比，可以高准确度地处理这些数据集，从而表明这两种语义框架可以一致地组合以处理各种语言现象的组合。

Abstract

In formal semantics, there are two well-developed semantic frameworks: event semantics, which treats verbs and adverbial modifiers using the notion of event, and →

发现论文，激发创造

收集多样化的自然语言推理问题用于句子表示评估

该研究从13个不同领域的语料库中抽取出超过50万个标记好的内容假设对，并将它们重新组织成一个名为DNC的大规模多样化自然语言推理数据集，以探究语句表示在不同类型推理问题中的表现。

Apr, 2018

自然语言推理中仅基于假设的基准线

在十个不同的自然语言推理数据集上进行实验后，我们发现使用一种仅基于假设的模型，即使忽略上下文，也可以显著优于大多数 NLI 数据集的大多数基线，分析表明统计异常性可能允许模型在某些数据集中执行 NLI，超出不带上下文访问时本应实现的界限。

May, 2018

SherLIiC: 一个基于类型和事件的词汇推理基准，用于评估自然语言推理

SherLIiC是一个词汇推理上下文测试平台，由包含3985个手动注释的推理规则候选项（InfCands），包括 ~960k 未标记的InfCands和 ~190k 从大型实体链接语料库ClueWeb09中提取的Freebase实体间的类型文本关系。该平台对现有自然语言推理系统构成了颇具挑战性的考验。

Jun, 2019

通过语义片段探究自然语言推理模型

通过使用语义片段，作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳，在这些问题上进行微调，BERT-based模型可以掌握所有逻辑和单调性片段，同时保持其在已有NLI基准测试的性能。

Sep, 2019

MonaLog: 一种基于单调性的自然语言推理轻量级系统

我们介绍了一种基于自然逻辑和单调性演算的自然语言推理（NLI）新逻辑推理引擎MonaLog。通过将我们的系统与当前最先进的模型BERT相结合，我们展示了MonaLog在组合数据增强等多种情况下为BERT生成高质量的大量训练数据，提高了其在SICK上的准确性。

Oct, 2019

使用比较和广义量词进行逻辑推理

本研究提出了一种基于组合范畴语法的组成性语义，并与基于自动定理证明的推理系统相结合，成功将英语中各种比较结构映射到语义表示中，本研究在包含比较、量词和数字的三个自然语言推理数据集上的实验证明该系统的表现优于之前的逻辑系统和最新的深度学习模型。

May, 2020

NeuralLog: 使用联合神经和逻辑推理的自然语言推理

提出了一个融合符号与深度学习方法的推理框架 NeuralLog，通过结合单调性逻辑推理引擎和神经网络语言模型进行短语对齐，并使用 beam search 算法解决 NLI 任务，实验证明该联合推理系统在 NLI 任务上提高了准确性，并可在 SICK 和 MED 数据集上实现最先进的准确性。

May, 2021

AMR4NLI：来自语义图的可解释且健壮的NLI度量

本研究通过比较语义结构来表示前提和假设之间的语义关系，使用可解释的度量标准计算假设是否是前提的语义子结构，并在三个英文基准测试中评估了使用语境化嵌入和语义图表达的价值，并发现它们提供了互补的信号，并可以在混合模型中一起利用。

Jun, 2023

用于自然语言推理复杂组合知识评估的合成数据集

本研究介绍了一个名为SICCK的合成数据集和一种新颖的分析方法，通过修改自然语言推理（NLI）模型可理解逻辑组成性的性能，并发现NLI模型在零-shot和精调情况下对带有量词和否定的修饰语进行修改后的句子表现不佳。

Jul, 2023

自然语言句子之间蕴含和矛盾关系的识别：一种神经符号方法

提出了一个基于将文本转换为抽象意义表示（AMR）图的新型流水线，通过预训练的AMR解析器将AMR图转换为命题逻辑，并使用SAT求解器进行自动推理，引入了松弛方法以允许替换或遗忘某些命题。实验结果表明该流水线在四个Recognizing Textual Entailment数据集上表现良好。

May, 2024