ArcMMLU：大型语言模型的图书馆与信息科学基准

Nov, 2023

ArcMMLU：大型语言模型的图书馆与信息科学基准

ArcMMLU: A Library and Information Science Benchmark for Large Language Models

Shitou Zhang, Zuchao Li, Xingshen Liu, Liming Yang, Ping Wang

TL;DR该研究介绍了 ArcMMLU，这是一种专门为中文图书馆与信息科学领域定制的基准测试，它旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。通过对超过 6,000 个高质量问题的收集，ArcMMLU 构成了一个广泛的编译，能够反映 LIS 领域的多样性并为 LLM 评估提供可靠的基础。该研究发现，虽然大多数主流 LLM 在 ArcMMLU 上的平均准确率超过 50％，但仍然存在显著的性能差距，表明 LIS 领域的 LLM 功能仍有提升的空间。进一步分析探讨了少样本示例对模型性能的影响，并突出了模型在一些具有挑战性问题上的持续低效表现，为有针对性的改进提供了有价值的洞见。ArcMMLU 填补了中文 LIS 领域 LLM 评估中的一个重要空白，为未来定制该专门领域的 LLM 的发展铺平了道路。

Abstract

In light of the rapidly evolving capabilities of large language models (LLMs), it becomes imperative to develop rigorous domain-specific evaluation benchmarks to accurately assess their capabilities. In response to this need, this paper introduces →

large language models arcmmlu library & information science llm evaluation lis domain

发现论文，激发创造

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

CMMMU: 一个中国的大型多学科多模态理解基准

CMMMU 是一个新的中国大规模多学科多模态理解基准，旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现，并推动下一代 LMMs 的发展。

Jan, 2024

MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

在大规模语言模型的时代，本论文引入了 MMLU-Pro，这是一个增强的数据集，旨在扩展主要以知识驱动的 MMLU 基准测试，并且在其中集成了更具挑战性且关注推理的问题，从 4 个选项扩展到 10 个选项，同时消除了 MMLU 中的琐碎和噪声问题。与 MMLU 相比，实验证明 MMLU-Pro 不仅提高了挑战性，导致准确率下降了 16％至 33％，而且对于不同提示的模型评分的敏感性也下降了。此外，我们发现在 MMLU-Pro 上，采用 Chain of Thought (CoT) 推理的模型比直接回答问题的模型表现更好，这与原始 MMLU 上的研究结果形成鲜明对比，表明 MMLU-Pro 包含更复杂的推理问题。我们的评估证实 MMLU-Pro 是一个更有区分性的基准测试，以更好地追踪领域的进展。

Jun, 2024

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

论证还是简单的下一个令牌预测？用于对大型语言模型进行压力测试的基准

我们提出了 MMLU-SR，这是一个新颖的数据集，旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型（LLMs）的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分，但我们发现在这种替换后模型的性能大幅下降，暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准，并向广大科学界提出了挑战。

Jun, 2024

西班牙语和 LLM 基准：MMLU 是否被翻译迷失？

评估大型语言模型在其他语言中表现的质量，并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。

May, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

KMMLU：韩国语的大规模多任务语言理解测量

我们提出了 KMMLU，这是一个新的韩语基准，包括来自 45 个学科的 35,030 个专家级多项选择题，涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同，KMMLU 收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型，发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54％，远远低于人类平均表现 62.6％。该模型主要用于英文和中文训练，而不是韩语。对于韩语，当前的适用 LLMs，例如 Polyglot-Ko，表现得更差。令人惊讶的是，即使是最强大的专有 LLMs，例如 GPT-4 和 HyperCLOVA X，分别只能达到 59.95％和 53.40％。这表明需要进一步改进韩语 LLMs，而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集，并将这个基准整合到 EleutherAI 的语言模型评估工具中。

Feb, 2024