Oct, 2024

MathHay:一种用于长文本数学推理的自动基准测试

TL;DR本文针对现有模型在长文本中数学推理能力评估的缺失,提出了MathHay这一自动化基准测试。该基准不仅评估信息检索能力,还要求模型具备复杂的数学推理能力。实验结果表明,即使是表现最好的模型,Gemini-1.5-Pro-002,在长文本数学推理方面仅达到51.26%的准确率,显示出该领域仍有很大的改进空间。