语言模型在方向推断方面表现不佳
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
研究表明,虽然预训练语言模型对于自然语言推理方面的知识有比较好的编码能力,但其对于本体论的推断需要更多的背景知识,而且在给定少量样本的情况下能够有效地进行推断。
Feb, 2023
本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用,并提出了一个新的自然数据集 MoNLI,其中集中了词汇蕴涵和否定的相关内容,通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果,同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。
Apr, 2020
我们提出研究答案的蕴含关系,以识别更具信息量和更一般化的系统答案,从而更接近人类判断,无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数,实现对答案正确性的细致排序,其 AUC 比目前的方法更高。
May, 2024
我们通过对大型语言模型的隐空间进行研究发现,先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器,而我们的实验结果表明这些探测器的预测可能与前面的(相关)句子有条件关联,并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。
Apr, 2024
本研究介绍了一种基于无监督学习的多元蕴含图方法,用来理解自然语言断言之间的关系,并在微观语义问答任务中展示了其性能。结果表明,多元蕴含图在细粒度语义问题上比双向相似性更有帮助,并且跨语言价位的证据对于回答问题比仅使用相同语言价证据更加有效。
Apr, 2021
通过使用语义片段,作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳,在这些问题上进行微调,BERT-based 模型可以掌握所有逻辑和单调性片段,同时保持其在已有 NLI 基准测试的性能。
Sep, 2019
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023