语言模型在方向推断方面表现不佳

EMNLPOct, 2022

语言模型在方向推断方面表现不佳

Language Models Are Poor Learners of Directional Inference

Tianyi Li, Mohammad Javad Hosseini, Sabine Weber, Mark Steedman

TL;DR探讨了利用提示进行监督微调测试 LM 在方向谓词蕴含方面的能力。提出了一个名为 BoOQA 的评估基准，旨在评估 LM 在方向谓词蕴含方面的表现，结果显示现有的 LM 模型无法胜任方向蕴含的学习任务，而基于蕴含图的模型表现较好。

Abstract

We examine lms' competence of directional predicate entailments by supervised fine-tuning with prompts. Our analysis shows that contrary to their apparent success on standard NLI, →

lms directional predicate entailments booqa evaluation benchmark entailment graphs

发现论文，激发创造

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

本体蕴含推理的语言模型分析

研究表明，虽然预训练语言模型对于自然语言推理方面的知识有比较好的编码能力，但其对于本体论的推断需要更多的背景知识，而且在给定少量样本的情况下能够有效地进行推断。

Feb, 2023

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

透过文本蕴含准确而细致地评估开放问题回答

我们提出研究答案的蕴含关系，以识别更具信息量和更一般化的系统答案，从而更接近人类判断，无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数，实现对答案正确性的细致排序，其 AUC 比目前的方法更高。

May, 2024

语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Apr, 2024

多价蕴涵图用于问答

本研究介绍了一种基于无监督学习的多元蕴含图方法，用来理解自然语言断言之间的关系，并在微观语义问答任务中展示了其性能。结果表明，多元蕴含图在细粒度语义问题上比双向相似性更有帮助，并且跨语言价位的证据对于回答问题比仅使用相同语言价证据更加有效。

Apr, 2021

通过语义片段探究自然语言推理模型

通过使用语义片段，作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳，在这些问题上进行微调，BERT-based 模型可以掌握所有逻辑和单调性片段，同时保持其在已有 NLI 基准测试的性能。

Sep, 2019

揭示大型语言模型在 Transformer 模型之上对孟加拉语自然语言推理的优势：一项全面研究

通过综合评估，本研究在低资源语言（如孟加拉语）的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能，发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能，但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。

May, 2024

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023