Apr, 2024

MARIO Eval: 用数学评估你的数学 LLM 工具包

TL;DR大语言模型(LLMs)在解决数学问题等各种推理任务中得到了探索。我们引入了一个全面的数学评估工具包,不仅利用 python 计算代数系统(CAS)进行数值精度评估,还集成了一个可选的大语言模型(LLM),以验证工具包的有效性。