M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准

May, 2023

M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准

M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models

Chuang Liu, Renren Jin, Yuqi Ren, Linhao Yu, Tianyu Dong...

TL;DR这篇论文介绍了 M3KE 评估标准，它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比，研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率，比其他中文语言模型表现更为优异。

Abstract

large language models have recently made tremendous progress in a variety of aspects, e.g., cross-task generalization, instruction following. Comprehensively evaluating the capability of large language models in

large language models m3ke benchmark chinese education system multitask accuracy gpt-3.5

发现论文，激发创造

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE 是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题，涵盖 30 个学科的 75 个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明，LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

MLaKE：大型语言模型的多语言知识编辑基准

通过多个语言中的多跳推理和单跳问题，MLaKE（多语言语言知识编辑）评估了知识编辑方法在多语言环境下的适应性，发现现有方法在英语样本上表现较好，但在多语言实验中的泛化能力有限，强调了多语言知识编辑的发展需求。

Apr, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

测量大规模多任务中文理解

本文提出了一个测试大规模中文语言模型多任务准确性的方法，测试涵盖医学、法律、心理学和教育等四个主要领域，在医学和教育领域共包含 15 个子任务和 8 个子任务。测试表明，在零样本情况下，表现最好的模型平均优于表现最差的模型近 22 个百分点。此外，本测试可以跨多个领域全面评估知识的广度和深度，更准确地识别模型的缺陷。

Apr, 2023

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

KMMLU：韩国语的大规模多任务语言理解测量

我们提出了 KMMLU，这是一个新的韩语基准，包括来自 45 个学科的 35,030 个专家级多项选择题，涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同，KMMLU 收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型，发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54％，远远低于人类平均表现 62.6％。该模型主要用于英文和中文训练，而不是韩语。对于韩语，当前的适用 LLMs，例如 Polyglot-Ko，表现得更差。令人惊讶的是，即使是最强大的专有 LLMs，例如 GPT-4 和 HyperCLOVA X，分别只能达到 59.95％和 53.40％。这表明需要进一步改进韩语 LLMs，而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集，并将这个基准整合到 EleutherAI 的语言模型评估工具中。

Feb, 2024

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试 M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括 GPT-4）仍然难以应对多语言文本，同时多模态 LLMs 在复杂多模态问题上表现不佳。

Jun, 2023

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024