Mar, 2025

MOAT:评估大型多模态模型在能力整合和指令基础上的表现

TL;DR本研究针对现有大型多模态模型(LMMs)在人类复杂任务表现上的差距,提出了MOAT这一基准测试,旨在评估LMMs在多种真实世界视觉-语言(VL)任务中的能力整合与指令理解能力。研究发现,人类在MOAT测试中的准确率为82.7%,而表现最好的LMM只达到38.8%的准确率,这揭示了LMMs在复杂任务中面临的显著挑战,并为未来模型的发展提供了指导。