Mar, 2024

FineMath:面向中文大语言模型的细粒度数学评估基准

TL;DR为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念,并进一步划分为 17 类数学应用问题,从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验,并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。