一项测试模型在某些推理任务中的能力的案例研究
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
本论文评估了最新的 Large Language Models 在抽象推理任务上的表现,并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因,并提出了一个新的基准,用于评估自然语言处理中的抽象推理任务。
May, 2023
大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有模型在一致性和推理能力方面通常优于公开模型,但即使面对基本的常识问题,没有一个模型在一致性和推理能力上都达到 90% 的得分。
Apr, 2024
大型语言模型在各种任务和条件中以零样本或零曝光的方式表现出色,但我们的研究发现在某些基本推理能力上表现出严重的缺陷,需要迅速重新评估当前一代 LLM 的所声称的能力,并创建新的标准评测以发现这些明显被当前评测方法忽视的基本推理缺陷。
Jun, 2024
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023