人类和大型语言模型在演绎推理中的推理策略比较
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
通过研究不同类型的推理方式,以及对语言模型进行的指令跟随、少样本提示和指令推断实验,我们发现即使在一些最大的语言模型中,推理的方式仍然是非系统性的,不同的学习机制可能被看似相似的提示程序调用。
Apr, 2024
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要差异且模型的局限性在新版 LLM 中几乎完全消失,此外,我们还表明,虽然有可能设计策略以提高模型的性能,但人类和机器对相同的提示方案的响应并不相同,最后我们讨论了比较人类和机器行为在人工智能和认知心理学领域中的认识论意义和挑战。
Sep, 2023
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响,并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明,大型语言模型的行为可以通过认知科学中研究的启发式方式来解释,而背景学习和有监督微调都能提高模型在有效推理上的性能,尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。
Jun, 2024
通过产生多个抽象假设并将其转化为具体的 Python 程序,进而为大型语言模型提高归纳推理能力,并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序,从而在归纳推理任务中实现更高的准确性。
Sep, 2023
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024