使用 NeuBAROCO 评估大型语言模型的三段论推理能力和类人偏见

Jun, 2023

使用 NeuBAROCO 评估大型语言模型的三段论推理能力和类人偏见

Evaluating Large Language Models with NeuBAROCO: Syllogistic Reasoning Ability and Human-like Biases

Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada

TL;DR本文研究当前的大型语言模型是否存在逻辑推理的偏见，探讨三种主要偏见类型，并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集，发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。

Abstract

This paper investigates whether current large language models exhibit biases in logical reasoning, similar to humans. Specifically, we foc

large language models biases logical reasoning syllogistic reasoning neubaroco dataset

发现论文，激发创造

人类与语言模型中演绎推理的系统比较

语言模型在逻辑推理中能够模仿人类偏见，并在某些情况下克服它们。

Nov, 2023

大型语言模型作为软性推理器的系统分析：以三段论推理为例

我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调都能提高模型在有效推理上的性能，尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。

Jun, 2024

探索令牌偏差：大型语言模型尚未成为真正的推理者

该研究介绍了一个假设检验框架，用于评估大型语言模型（LLMs）是否具有真正的推理能力，还是主要依赖于令牌偏差。我们超越准确性的评估，旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言，我们开发了精心控制的合成数据集，其中包括合取谬误和演绎问题。我们的框架概述了一系列假设，其中令牌偏差很容易被识别，所有零假设均假设 LLMs 具有真正的推理能力。本研究的发现以统计保证表明，多数 LLMs 在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色，但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式，因此引发了对其实际推理和泛化能力的担忧。

Jun, 2024

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用 Abstract and Reasoning Corpus 数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了 LLM 的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

关于利用生物学问题的大型语言模型的推理能力和可访问性的调查

本文讨论了过去十年在生物医学和大型语言模型方面取得的进展，还讨论了自然语言处理技术和工具如何与生物医学相结合。最后，通过引入一系列新的问题和提示，本文旨在对去年一项调查的结果进行扩展，以 quantifying 大型语言模型的推理能力改进以及普通用户所感受到的改进程度。此外，本文还通过要求大型语言模型深入回答开放性问题，扩展了生物文献检索的研究领域。

May, 2024

大型语言模型中的 (非) 理性和认知偏差

大型语言模型在合理推理中显示出人类的偏见和不合理行为，但这种不合理行为与人类不同，且存在额外的回答不一致性。

Feb, 2024