FineMath：面向中文大语言模型的细粒度数学评估基准

Mar, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

Yan Liu, Renren Jin, Lin Shi, Zheng Yao, Deyi Xiong

TL;DR为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了 FineMath，一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念，并进一步划分为 17 类数学应用问题，从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验，并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Abstract

To thoroughly assess the mathematical reasoning abilities of Large Language Models (LLMs), we need to carefully curate evaluation datasets covering diverse mathematical concepts and mathematical problems at different difficulty levels. In pursuit of this objective, we propose FineMath

large language models mathematical reasoning abilities evaluation dataset math word problems chinese llms

发现论文，激发创造

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

CMATH：你的语言模型能通过中国小学数学考试吗？

该研究提供了一个数据集，用于评估流行的大型语言模型在小学数学的能力，并发现 GPT-4 是唯一能够在所有六个小学年级取得成功的模型，但我们对其进行了测试后发现只有 GPT-4 在算术问题和推理方面具有鲁棒性，其他模型均不具备鲁棒性。

Jun, 2023

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

CFinBench：大型语言模型的全面中文金融基准

提出了 CFinBench：一个经过精心设计的，迄今为止最全面的评估基准，用于评估大型语言模型在中国金融领域的金融知识，包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明，GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能，平均准确率高达 60.16%。

Jul, 2024

优化大规模语言模型微调以解决数学问题

尽管大型语言模型在许多自然语言任务中取得了成功，但解决数学问题仍然是一个巨大的挑战。本研究通过使用 MATH 数据集，探索了三种微调策略，即解决方案微调、解决方案聚类重新排序和多任务顺序微调，并发现这些方法可以显著提高模型的性能。

Oct, 2023

KwaiYiiMath 技术报告

KwaiYiiMath enhances mathematical reasoning abilities by applying Supervised Fine-Tuning and Reinforced Learning from Human Feedback on English and Chinese mathematical tasks, achieving state-of-the-art performance on GSM8k, CMath, and a small-scale Chinese primary school mathematics test set named KMath.

Oct, 2023

MathCAMPS: 从人类课程中细化合成数学问题

我们提出了 MathCAMPS 方法，用于合成高质量的数学问题，并通过 LLMs 将其转化为单词问题，以进一步探索数学问题解决和对话中的各种技能和能力。

Jul, 2024