Jun, 2023

M3Exam:一个用于检验大型语言模型的多语言、多模态、多级别基准

TL;DR该论文介绍了一种利用人类考试题目来全面评估大型语言模型(LLMs)的基准测试 M3Exam,该测试具有多语言、多模态和多级结构的特点,在低资源和非拉丁语文本方面,当前模型(包括 GPT-4)仍然难以应对多语言文本,同时多模态 LLMs 在复杂多模态问题上表现不佳。