轻量级大型语言模型在数学文字问题中的逻辑对比推理
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
我们引入了一种基于图的方法来增强大型语言模型的推理能力,通过分析和验证由LLMs生成的解决方案,我们的实验结果表明,我们的基于图的验证方法不仅显著提高了LLMs的推理能力,而且在提高这些模型的推理性能方面优于现有的验证程序。
Aug, 2023
我们提出了CHAMP数据集,该数据集包含高中数学竞赛问题,注释了概念和提示,使我们能够探索额外信息对模型性能的影响,发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案,并且大多数模型在验证这些解决方案时遇到困难。
Jan, 2024
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
本研究介绍了ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的ConceptMath的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望ConceptMath能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
MATHSENSEI 是一个工具增强的大型语言模型,通过添加知识检索、程序执行和符号方程求解的工具,针对数学推理问题进行评估,表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到,TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著,且随着问题复杂程度和所需知识的增加而提高。
Feb, 2024
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了1,958个关于各种数学学科的问题,并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型,我们发现最先进的模型GPT-4在多项选择场景下仅达到54%的准确度。有趣的是,即使在使用思维链提示的情况下,我们也几乎没有观察到明显的改进。此外,当问题在没有可选项的情况下提供时,大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明,即使是在相同的数学领域中的紧密相关子主题之间,也存在显着差异。为了找出大语言模型性能背后的原因,当有可选项时,我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是,在模型提供正确答案的情况下,只有53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。
Jun, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究解决了现有大型语言模型在数学问题求解中的局限性,尤其是对训练数据的过度依赖。提出了一种新颖的方法,通过代码基础的评论模型引导数据构建和质量控制,探索不同的对齐算法以实现模型的持续改进。实验结果显示,所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。
Aug, 2024