本论文介绍了 JSICK,一个从英语数据集 SICK 人工翻译而来的日语 NLI/STS 数据集。我们对不同的预训练语言模型进行了基准实验,并比较了多语言模型在日语和其他语言中的表现。压力测试实验的结果表明,当前的预训练语言模型对于单词顺序和语义标记不敏感。
Aug, 2022
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
通过语义推理研究各种类型的空间表达方式与推理模式,我们创建了一个名为 SpaceNLI 的数据集,并测试了几种 NLI 系统的它们对于空间推理复杂度和系统能力的提高。通过评估结果,我们发现系统对于空间 NLI 问题获得了适度的结果,但缺乏推理模式的一致性。结果还表明,非射影空间推理(尤其是由 “between” 介词引起的)是最具挑战性的。
Jul, 2023
本文提出了一个评估方法,即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力,评估了六种句子编码模型在这些测试中的表现,揭示了模型在面对复杂语言现象时的优势和劣势,为以后的研究方向提供了重要的指导意义。
Jun, 2018
本文讨论深度自然语言理解模型的系统性问题,通过在自然语言推理(NLI)中进行一系列实验,证明了一些 NLU 系统虽然不具备系统性,但仍能够达到高的整体表现。
May, 2020
该研究探索了无监督预训练和外部知识对自然语言推断任务的影响,以了解其如何帮助自然语言理解和解决 NLP 问题。
Apr, 2019
本文提出一个过程,用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象,最终发现编码器最适合在语法 - 语义界面上支持推理,而不是需要世界知识的指代消解。
Apr, 2018
该论文介绍了 LogicInference 数据集,主要用来评估模型在逻辑推理方面的能力,该数据集涵盖了命题逻辑和部分一阶逻辑,并用半正式的逻辑符号和自然语言表示。同时,论文还对多种机器学习模型在该数据集上的初步实验结果进行了报告,建立了一个基础基线。
Mar, 2022
本文探讨了预训练语言模型在自然语言推理方面的浅层启发式方法,指出缺乏泛化性。通过构建自己的基于 syllogistic 的数据集并评估其在一系列模型上的表现,发现模型过多地依赖某些浅层启发式方法,暗示目前的模型不是在学习自然语言推理,而是一些虚假的启发式方法。
Jan, 2022
本研究介绍了一个名为 SICCK 的合成数据集和一种新颖的分析方法,通过修改自然语言推理(NLI)模型可理解逻辑组成性的性能,并发现 NLI 模型在零 - shot 和精调情况下对带有量词和否定的修饰语进行修改后的句子表现不佳。