Jun, 2023
M3Exam:一个用于检验大型语言模型的多语言、多模态、多级别基准
M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models
Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing
TL;DR该论文介绍了一种利用人类考试题目来全面评估大型语言模型(LLMs)的基准测试 M3Exam,该测试具有多语言、多模态和多级结构的特点,在低资源和非拉丁语文本方面,当前模型(包括 GPT-4)仍然难以应对多语言文本,同时多模态 LLMs 在复杂多模态问题上表现不佳。