May, 2024

M4U:评估大型多模态模型的多语言理解与推理能力

TL;DRM4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs),发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%,而且这些模型在跨语言多模态问题上表现出显著的性能降低。