MuSR: 对多步软推理进行思维链限制的测试

Oct, 2023

MuSR: 对多步软推理进行思维链限制的测试

MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning

Zayne Sprague, Xi Ye, Kaj Bostrom, Swarat Chaudhuri, Greg Durrett

TL;DR我们介绍了 MuSR 数据集，这是一个用于评估语言模型在自然语言叙述中进行多步骤软推理任务的数据集，其中数据实例是由神经符号综合生成算法创建的复杂推理实例，同时我们评估了一系列大语言模型和提示技术在该数据集上的表现，并表征了像链式思维这样的技术在进行强大推理时仍存在的差距。

Abstract

While large language models (LLMs) equipped with techniques like chain-of-thought prompting have demonstrated impressive capabilities, they still fall short in their ability to reason robustly in complex settings. However, evaluating LLM →

large language models reasoning musr dataset logical deduction

发现论文，激发创造

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

多阶段逻辑推理能力评估的目标：Multi-LogiEval

为了评估大型语言模型在人类式的多步逻辑推理方面的能力，我们提出了一种综合评估数据集 Multi-LogiEval，该数据集囊括了多步逻辑推理、各种推理规则和深度，并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明，随着推理步骤 / 深度的增加，语言模型的性能显著下降（在深度为 1 时平均准确率约为 68%，深度为 5 时约为 43%）。我们相信 Multi-LogiEval 将有助于以后评估和提升大型语言模型的逻辑推理能力。

Jun, 2024

论证还是简单的下一个令牌预测？用于对大型语言模型进行压力测试的基准

我们提出了 MMLU-SR，这是一个新颖的数据集，旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型（LLMs）的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分，但我们发现在这种替换后模型的性能大幅下降，暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准，并向广大科学界提出了挑战。

Jun, 2024

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

通过代码从 LLMs 中引出更好的多语言结构化推理

大型语言模型在多语言结构推理和解释数据集 xSTREET 上表现出进展，通过使用机器翻译增强具有多语言评论的代码数据集，以及在推理时使用包含逐步代码原语的提示结构，提供了改善多语言性能的两种方法。

Mar, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

通过可微分符号编程改进语言模型的逻辑推理能力

本文提出 DSR-LM 框架，通过符号编程实现不同 iable 符号推理框架，其中预训练的语言模型控制事实知识的感知，符号模块执行演绎推理，并改进了 LMs 的逻辑推理能力，结果表明其在推理基准测试中的精度提高了 20% 以上。

May, 2023

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

语言模型是多语言的思维链推理器

通过使用多种类型不同的语言，我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言，评估了大型语言模型在多语种环境下的推理能力，并提出了 MGSM 基准。我们发现，随着模型规模的增加，使用思维链提示解决 MGSM 问题的能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。最后，我们展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。

Oct, 2022