Jul, 2024

TurkishMMLU:测量土耳其语的大规模多任务语言理解

TL;DR通过引入第一个多任务、多项选择土耳其问答基准测试 TurkishMMLU,评估了大型语言模型对土耳其语的理解能力。该基准测试包括来自土耳其高中教育课程的9个不同科目的10,000多个问题,通过对超过20种语言模型进行深入评估,提供了对当前语言模型在土耳其能力和局限性的详细分析。