Jun, 2024

CMMaTH: 一个基于多模态的中文数学技能评估基准用于基础模型

TL;DR我们提出了一个名为CMMaTH的中文多模态数学技能评估基准,包含23k个中小学多模态数学相关问题,构成迄今最大的中文多模态数学问题基准。我们构建了一个与CMMaTH数据集集成的开源工具GradeGPT,以便稳定、快速和免费地评估模型性能。