Mar, 2024

MathVerse: 您的多模式LLM真正看到视觉数学问题中的图表吗?

TL;DR通过引入MathVerse基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为MLLMs的未来发展提供独特的见解。