EconNLI: 对大型语言模型在经济推理上的评估
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
对 LLMs 的事件推理能力进行了综合评估,发现 LLMs 在事件推理方面的表现仍然不尽如人意。通过发现 LLMs 对事件推理能力存在的不平衡,提出了两种方法来指导 LLMs 利用事件模式知识,并获得了改进。
Apr, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
EconLogicQA 是一个旨在评估大型语言模型(LLMs)在经济学、商业和供应链管理领域中的顺序推理能力的严格基准。通过衍生自经济文章的多事件场景,EconLogicQA 要求模型区分和排序多个相互关联的事件,捕捉经济逻辑的复杂性。通过全面评估,我们展示了 EconLogicQA 在经济环境中导航顺序复杂性方面的有效性,并提供了对各种领先的 LLMs 在经济环境中顺序推理潜力的全面观点。我们的基准数据集可在此 URL 获取。
May, 2024
本文研究事件涵义的模型,通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现,传统的大型语言模型无法很好地理解这方面的知识;而通过适当的提示方式,它们的性能可以得到极大的提升,尤其是对于未知的属性或数据信息不足的情况。
Nov, 2022
因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时,这篇综述从因果的角度对生成大型语言模型进行评估和改进,从而理解和提高生成大型语言模型的推理能力,解决公平性和安全性问题,提供解释支持,并处理多模态数据。与此同时,生成大型语言模型强大的推理能力可以推动因果推断领域的发展,帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用,强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。
Mar, 2024
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力,以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明,虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性,但它们对提示中的干扰因素仍然敏感。
Apr, 2024