Jun, 2023

CMATH:你的语言模型能通过中国小学数学考试吗?

TL;DR该研究提供了一个数据集,用于评估流行的大型语言模型在小学数学的能力,并发现 GPT-4 是唯一能够在所有六个小学年级取得成功的模型,但我们对其进行了测试后发现只有 GPT-4 在算术问题和推理方面具有鲁棒性,其他模型均不具备鲁棒性。