SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试
通过提出综合性的中文基准 SuperCLUE,我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况,并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。
Jul, 2023
SuperCLUE-Fin 是专为中文金融大型语言模型(FLMs)设计的评估框架,通过六个金融应用领域和 25 个专业任务对 FLMs 进行评估,包括合规性,风险管理和投资分析等理论知识和实际应用。SC-Fin 可帮助改善 FLMs 在中国金融领域的性能和可用性,推动人工智能在这一领域的发展和负责任的应用。
Apr, 2024
本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念,并进一步划分为 17 类数学应用问题,从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验,并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。
Mar, 2024
该研究提供了一个数据集,用于评估流行的大型语言模型在小学数学的能力,并发现 GPT-4 是唯一能够在所有六个小学年级取得成功的模型,但我们对其进行了测试后发现只有 GPT-4 在算术问题和推理方面具有鲁棒性,其他模型均不具备鲁棒性。
Jun, 2023
提出了一种简单且可扩展的方法,使用最新的大型语言模型(如 GPT-3.5)来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点,构建概念图,并生成新的数学问题,最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集(MathScaleQA)。通过对开源大型语言模型(如 LLaMA-2 和 Mistral)进行 Fine-tuning,MathScale-7B 在 Math Word Problems 基准测试(MwpBench)上取得了最先进的性能。
Mar, 2024
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
多模态大型语言模型在理解和推理能力方面取得了显著进展,但领域专有知识的掌握仍然是一个挑战。因此,作者提出了一个名为 CMMU 的新型基准,用于测试多模态和多类型问题的理解和推理,这个基准是专为中文而设计的。研究结果表明,CMMU 对近期的多模态大型语言模型构成了重要挑战。
Jan, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性 LLM 进行了深入的基准研究,采用多种提示策略。结果表明,当前 LLM 的表现不尽如人意,综合得分仅为 35.80%。此外,通过详细的用户研究,我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023