Aug, 2024

MathScape:通过分层基准评估多模态数学场景中的大型语言模型

TL;DR本研究针对现有多模态数学评估基准未能有效整合视觉和文本信息的问题,提出了MathScape,一个新的分层基准,强调组合视觉和文本理解及应用。研究表明,该基准即使对最先进的多模态大型语言模型也具有挑战性,分析结果揭示了这些模型的局限性,为改进模型性能提供了重要见解。