Feb, 2024

使用 MATH-Vision 数据库测量多模态数学推理

TL;DR我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力,并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距,强调了对大规模多模态模型的进一步发展的必要性,此外,我们的详细分类还允许对其错误进行全面分析,为未来的研究和开发提供有价值的见解。