当推理遇上信息聚合：体育叙事案例研究

Jun, 2024

当推理遇上信息聚合：体育叙事案例研究

When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives

Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Wenlin Yao...

TL;DR综合真实 NBA 篮球数据，我们提出了一种名为 SportsGen 的新方法，用于综合比赛叙述，以严谨评估复杂情景下 LLMs 的推理能力，结果表明 GPT-4o 等大多数模型常因频繁的得分模式而不能准确汇总篮球比分，而开源模型如 Llama-3 则存在显著的得分幻觉，最后我们发现推理的效果受叙述复杂性、信息密度和领域特定术语的影响，突显了分析推理任务的挑战。

Abstract

reasoning is most powerful when an LLM accurately aggregates relevant information. We examine the critical role of information aggregation in rea

reasoning llms information aggregation sports narratives nba basketball

发现论文，激发创造

大型语言模型是否能进行分析推理？

本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中，大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先，我们发现在我们使用的所有模型中，GPT-4 是最有效的，其次是 Claude-2.1，而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言，我们比较了三种不同的提示技术和一种分而治之的方法，我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段，分别解决每个片段，然后将它们聚合在一起。除了分而治之的方法，我们还探索了思维链（CoT）策略，该策略明显改善了某些模型，尤其是 GPT-4 和 Claude-2.1 的效果，它们的准确率显著提高。然而，对于 GPT-3.5 和 Gemini-Pro 等其他模型，思维链策略则几乎没有或甚至具有负面影响。其次，令我们惊讶的是，尽管在计算 NFL 季度得分方面表现出色，但大多数模型，包括 GPT-4，却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素，并通过大量实验得出结论，即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。

Mar, 2024

SportsMetrics: 融合文本和数值数据以理解 LLM 中的信息融合

大型语言模型在整合文本文档和数据库记录等各种数据类型进行高级分析方面具有重要潜力。然而，混合文本和数值数据面临着很大的挑战。本文介绍了围绕体育数据分析的四个新颖任务，用于评估大型语言模型的数值推理和信息融合能力。这些任务涉及提供详细的场上比赛描述，并向模型提出具有挑战性的场景，例如新的比赛规则、更长的比赛时间、混乱的故事情节以及分析比赛摘要中的关键统计数据。我们在 NBA 和 NFL 比赛上进行了大量实验证明大型语言模型在这些任务上的表现。我们的基准测试系统 SportsMetrics 引入了一种评估大型语言模型数值推理和融合能力的新机制。

Feb, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

GTBench: 揭示 LLMs 的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

REASONS: 使用公开和私有的大型语言模型进行科学句子的检索和自动引用

大型语言模型（LLM）是否能根据直接查询和间接查询在文档或报告中生成参考文献是智能分析、网络安全、新闻机构和教育人员至关重要的问题。本研究通过调查大型语言模型在生成参考文献任务中的表现，引入名为 REASONS 的大型数据集，以科学研究领域的 12 个最热门领域的摘要为基础，得出相关结论，并提供有关自动引文生成任务可靠性的有价值的见解。

May, 2024

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

LLMs 是否能够运用推理规则？用于压力测试和改善 LLMs 的逻辑支撑

通过基于逻辑搭建的推理规则生成框架 ULgogic 对 GPT 系列模型进行分析，揭示了它们在逻辑理解方面与人类表现相比存在的显著差距，尤其是在具有某种偏见模式的复合和结构复杂规则方面；同时，我们采用这些规则构建了一个小规模推理引擎，用于灵活地生成规则并增强下游推理能力，经过多评估者评估，我们的推理引擎证明在生成准确、复杂和抽象的结论和前提方面非常有效，从而为增强大型语言模型的逻辑推理能力提供了启示。

Feb, 2024