通过词汇推理类型实现可控自然语言推理
通过引入 Stanford 自然语言推理语料库,我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏,该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对,包含570k个句子对,是同类资源的两个量级以上,在规模方面取得了重大进展,这使得词汇分类器优于一些复杂的现有蕴含模型,并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。
Aug, 2015
该论文提出了一项新的任务,即通过一个源句子生成一个蕴含的句子,使用带有关注力的LSTM模型对斯坦福自然语言推理语料库的蕴含对进行训练,在手动注释的测试集上,82%的生成句子是正确的,还使用递归方法生成自然语言推理链,从而自动构造了一个蕴含图。
Jun, 2016
通过扩展自然语言推理数据集并引入人工提供的自然语言解释,我们实现了能够学习人类提供解释的机器学习模型,并将其用于提高模型性能和确定其可靠性的研究。
Dec, 2018
通过使用语义片段,作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳,在这些问题上进行微调,BERT-based模型可以掌握所有逻辑和单调性片段,同时保持其在已有NLI基准测试的性能。
Sep, 2019
介绍一种新的基于长文本语境下的对比学习模型ConTRoL,该模型具有一定难度,能够检测语境推理中的各种类型,并且在测试中结果表明该模型比自然语言处理的最先进模型表现得更好,同时还可进行事实正确性验证任务。
Nov, 2020
本文提出了一种名为Typed Predicate-Entailment Graph Generator (TP-EGG)的多阶段方法,利用生成模型,不需要精心准备的语料库,发现并构建了谓词之间的蕴含关系,可以用于自然语言理解中的推理任务。
Jun, 2023
该研究通过比较人类和大型语言模型(LLMs)之间的推理判断的共性和差异,以及对三个类别(NLI、contextual QA和rationales)的多个数据集进行评估,揭示了LLMs在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势,并引入了一种经过精细调整的Flan-T5模型来提高自洽性,在三个多项选择问答数据集上平均提高了6%的性能。
Feb, 2024
我们通过构建和评估直观的基于证明的文本蕴涵树,消除对脆弱形式逻辑的依赖,提出了一种一致且理论基础的方法来注释解构蕴涵的数据集,我们发现生成的RDTE数据集在内部一致性上比以前的数据集高出9%,并且通过在现代神经符号推理引擎中使用RDTE导向的蕴涵分类器进行训练,显著提高了文本推理的结果(准确性和证明质量),说明了这一进展在实践中的益处。
Feb, 2024
提出了一个基于将文本转换为抽象意义表示(AMR)图的新型流水线,通过预训练的AMR解析器将AMR图转换为命题逻辑,并使用SAT求解器进行自动推理,引入了松弛方法以允许替换或遗忘某些命题。实验结果表明该流水线在四个Recognizing Textual Entailment数据集上表现良好。
May, 2024
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024