Feb, 2024

KMMLU:韩国语的大规模多任务语言理解测量

TL;DR我们提出了KMMLU,这是一个新的韩语基准,包括来自45个学科的35,030个专家级多项选择题,涵盖人文学科到STEM学科。与之前从现有英语基准翻译而来的韩语基准不同,KMMLU收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。我们测试了26个公开和专有LLM模型,发现有显著的改进空间。最好的公开模型在KMMLU上的准确率为50.54%,远远低于人类平均表现62.6%。该模型主要用于英文和中文训练,而不是韩语。对于韩语,当前的适用LLMs,例如Polyglot-Ko,表现得更差。令人惊讶的是,即使是最强大的专有LLMs,例如GPT-4和HyperCLOVA X,分别只能达到59.95%和53.40%。这表明需要进一步改进韩语LLMs,而KMMLU提供了追踪这一进展的正确工具。我们在Hugging Face Hub上公开了我们的数据集,并将这个基准整合到EleutherAI的语言模型评估工具中。