人类与语言模型中演绎推理的系统比较

Nov, 2023

人类与语言模型中演绎推理的系统比较

A Systematic Comparison of Syllogistic Reasoning in Humans and Language Models

Tiwalayo Eisape, MH Tessler, Ishita Dasgupta, Fei Sha, Sjoerd van Steenkiste...

TL;DR语言模型在逻辑推理中能够模仿人类偏见，并在某些情况下克服它们。

Abstract

A central component of rational behavior is logical inference: the process of determining which conclusions follow from a set of premises. Psychologists have documented several ways in which humans' inferences deviate from the rules of logic. Do →

logical inference language models syllogisms human biases training data

发现论文，激发创造

大型语言模型作为软性推理器的系统分析：以三段论推理为例

我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调都能提高模型在有效推理上的性能，尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。

Jun, 2024

使用 NeuBAROCO 评估大型语言模型的三段论推理能力和类人偏见

本文研究当前的大型语言模型是否存在逻辑推理的偏见，探讨三种主要偏见类型，并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集，发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。

Jun, 2023

人类和大型语言模型在演绎推理中的推理策略比较

该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估，利用认知心理学原理探讨了模型使用的推理策略。结果发现，大型语言模型展示出类似于人类的推理模式，包括 “解释跟踪” 和 “链式构建” 等策略。此外，该研究表明模型的架构和规模显著影响其首选的推理方法，较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性，这一区别强调了该领域需要更为精细的评估程序。

Feb, 2024

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

研究和改进人类和机器的推理能力

通过对大型语言模型（LLM）和人类的推理进行比较，本研究使用传统的认知心理学工具调查和比较它们的表现，结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误，然而，深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要差异且模型的局限性在新版 LLM 中几乎完全消失，此外，我们还表明，虽然有可能设计策略以提高模型的性能，但人类和机器对相同的提示方案的响应并不相同，最后我们讨论了比较人类和机器行为在人工智能和认知心理学领域中的认识论意义和挑战。

Sep, 2023

大型语言模型中的 (非) 理性和认知偏差

大型语言模型在合理推理中显示出人类的偏见和不合理行为，但这种不合理行为与人类不同，且存在额外的回答不一致性。

Feb, 2024

现象异常而令人迷惑：用假设修正测试语言模型的归纳推理能力

使用迭代性的假设修正技术，通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力，并发现其在产生假设和筛选规则方面表现出色，但在识别可信规则和应用提议规则方面存在差距，揭示了语言模型在归纳推理任务中的潜力和局限。

Oct, 2023

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024

为什么要逐步思考？推理出自于体验的本地性

使用语言模型探究推理何时及为何有帮助，得出推理步骤的有效性取决于训练数据的统计结构和中间变量与目标推理之间的相关性。

Apr, 2023

语言模型作为归纳推理器

研究用自然语言作为代表知识的表示方法进行归纳推理的新任务 DEER 数据集，提出新的自动度量标准以及基于哲学文献的新任务框架，并且证明了预先训练好的语言模型在该任务上表现优秀。

Dec, 2022