轻量级大型语言模型在数学文字问题中的逻辑对比推理

Aug, 2024

轻量级大型语言模型在数学文字问题中的逻辑对比推理

Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems

Ding Kai, Ma Zhenguo, Yan Xiaoran

TL;DR本研究旨在提升轻量级大型语言模型在数学推理任务中的表现，填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集，该方法结合了语义和逻辑相似性，在SVAMP数据集上实现了15.8%的性能提升，并在GSM8K数据集上取得了21.5%的改进，为未来的推理研究提供了重要的见解。

Abstract

This study focuses on improving the performance of lightweight Large Language Models (LLMs) in mathematical reasoning tasks. We introduce a novel method for measuring mathematical logic similarity and design an automatic screening mechanism to construct a set of reference problems that

发现论文，激发创造

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由LLMs生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了LLMs的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

CHAMP：一个用于深入分析LLM数学推理能力的竞赛级数据集

我们提出了CHAMP数据集，该数据集包含高中数学竞赛问题，注释了概念和提示，使我们能够探索额外信息对模型性能的影响，发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案，并且大多数模型在验证这些解决方案时遇到困难。

Jan, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的ConceptMath的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望ConceptMath能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

MATHSENSEI：数学推理工具增强的大型语言模型

MATHSENSEI 是一个工具增强的大型语言模型，通过添加知识检索、程序执行和符号方程求解的工具，针对数学推理问题进行评估，表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到，TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著，且随着问题复杂程度和所需知识的增加而提高。

Feb, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了1,958个关于各种数学学科的问题，并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型，我们发现最先进的模型GPT-4在多项选择场景下仅达到54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

基于关键点驱动的大型语言模型的数学推理精炼

通过将大型语言模型分解为更小的语言模型，通过程序或关键点推导，改善了语义理解错误，提高了数学推理任务的性能。

Jul, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

SIaM：自我提升的代码辅助大型语言模型数学推理

本研究解决了现有大型语言模型在数学问题求解中的局限性，尤其是对训练数据的过度依赖。提出了一种新颖的方法，通过代码基础的评论模型引导数据构建和质量控制，探索不同的对齐算法以实现模型的持续改进。实验结果显示，所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。

Aug, 2024