评估数学推理能力的准确性以外的因素

Apr, 2024

评估数学推理能力的准确性以外的因素

Evaluating Mathematical Reasoning Beyond Accuracy

Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu

TL;DR通过有效性和冗余性评估推理质量，我们提出了 ReasonEval 方法，该方法在数学任务中表现优异，并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。

Abstract

The leaderboard of large language models (LLMs) in mathematical tasks has been continuously updated. However, the majority of evaluations focus solely on the final results, neglecting the quality of the intermediate steps. This oversight can mask underlying problems, such as logical er

large language models reasoning evaluation validity redundancy mathematical problem-solving

发现论文，激发创造

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

多阶段逻辑推理能力评估的目标：Multi-LogiEval

为了评估大型语言模型在人类式的多步逻辑推理方面的能力，我们提出了一种综合评估数据集 Multi-LogiEval，该数据集囊括了多步逻辑推理、各种推理规则和深度，并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明，随着推理步骤 / 深度的增加，语言模型的性能显著下降（在深度为 1 时平均准确率约为 68%，深度为 5 时约为 43%）。我们相信 Multi-LogiEval 将有助于以后评估和提升大型语言模型的逻辑推理能力。

Jun, 2024

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

评估大型语言模型的程序执行运行时行为

本文提出了一个名为 REval 的框架，用于评估代码 LLM 的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码 LLM 的代码推理能力的迫切需求。

Mar, 2024

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择 15 个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024