大型语言模型的事件推理综合评估
本文研究事件涵义的模型,通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现,传统的大型语言模型无法很好地理解这方面的知识;而通过适当的提示方式,它们的性能可以得到极大的提升,尤其是对于未知的属性或数据信息不足的情况。
Nov, 2022
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
本研究提出了一个全面的事件语义处理框架,并引入了一个新的基准测试集 EVEVAL,以全面评估模型的事件语义处理能力,为自然语言处理领域的大语言模型应用提供了重要的研究方向。
May, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文提出了一个名为 REval 的框架,用于评估代码 LLM 的代码推理能力和一致性,通过对现有的代码基准进行改进,在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意,强调了提高代码 LLM 的代码推理能力的迫切需求。
Mar, 2024
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024
本研究聚焦于利用大型语言模型(LLMs)进行自动事件提取,介绍了一种新方法以解决幻觉问题,通过将任务分解为事件检测和事件参数提取,并将动态结构感知的增强检索示例集成到为每个具体查询定制的提示中,从而扩展和适应检索增强生成等先进提示技术。评估结果表明,与基线方法相比,该方法在突出的事件提取基准和合成基准测试中表现出卓越的性能。
Jun, 2024