Jan, 2025

多模态大语言模型能否进行推理?EMMA:增强的多模态推理基准

TL;DR本研究针对多模态大语言模型在文本与图像的综合推理能力不足的问题,提出了EMMA基准,旨在评估数学、物理、化学和编程等领域的有机多模态推理。研究表明,现有模型在处理复杂的多模态及多步骤推理任务时存在显著局限,强调了提升多模态架构和训练方法的必要性,以更接近人类的推理能力。