大型语言模型是否能进行分析推理？

Mar, 2024

大型语言模型是否能进行分析推理？

Can Large Language Models do Analytical Reasoning?

Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh...

TL;DR本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中，大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先，我们发现在我们使用的所有模型中，GPT-4 是最有效的，其次是 Claude-2.1，而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言，我们比较了三种不同的提示技术和一种分而治之的方法，我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段，分别解决每个片段，然后将它们聚合在一起。除了分而治之的方法，我们还探索了思维链（CoT）策略，该策略明显改善了某些模型，尤其是 GPT-4 和 Claude-2.1 的效果，它们的准确率显著提高。然而，对于 GPT-3.5 和 Gemini-Pro 等其他模型，思维链策略则几乎没有或甚至具有负面影响。其次，令我们惊讶的是，尽管在计算 NFL 季度得分方面表现出色，但大多数模型，包括 GPT-4，却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素，并通过大量实验得出结论，即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。

Abstract

This paper explores the cutting-edge large language model with analytical reasoning on sports. Our analytical reasoning embodies the tasks of letting large language models count how many points each team scores i

large language model analytical reasoning nba nfl divide-and-conquer

发现论文，激发创造

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

将大型语言模型与逻辑编程相结合，从文本中进行稳健和通用的推理

本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应，以及可应用于多个任务的可重用的知识模块，结合逻辑形式输入的答案程序，实现了在多项 NLP 基准测试上的最新性能，包括 bAbI，StepGame，CLUTRR 和 gSCAN，并成功解决了机器人规划任务，而大型语言模型单独无法解决。

Jul, 2023

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

当推理遇上信息聚合：体育叙事案例研究

综合真实 NBA 篮球数据，我们提出了一种名为 SportsGen 的新方法，用于综合比赛叙述，以严谨评估复杂情景下 LLMs 的推理能力，结果表明 GPT-4o 等大多数模型常因频繁的得分模式而不能准确汇总篮球比分，而开源模型如 Llama-3 则存在显著的得分幻觉，最后我们发现推理的效果受叙述复杂性、信息密度和领域特定术语的影响，突显了分析推理任务的挑战。

Jun, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

体育智能：通过问题回答从文本到视频评估语言模型对体育理解能力

通过对主流大型语言模型在各种体育任务上进行广泛评估，我们揭示了自然语言处理中体育理解的关键挑战，并提出了一个基于现有体育数据集的全面概述的新基准，以帮助确定未来的研究优先事项。

Jun, 2024

GLoRE：评估大型语言模型的逻辑推理能力

该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估，提出了一个名为 GLoRE 的评估基准，包含 12 个数据集，通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力，并提出了改进方法，发布了数据集和评估程序以促进未来的研究。

Oct, 2023

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022