E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

Jan, 2024

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

Jinchang Hou, Chang Ao, Haihong Wu, Xiangtao Kong, Zhigang Zheng...

TL;DR通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Abstract

With the accelerating development of large language models (LLMs), many LLMs are beginning to be used in the chinese k-12 education domain. The integration of LLMs and education is getting closer and closer, howe

large language models chinese k-12 education natural language processing benchmark e-eval llm evaluation

发现论文，激发创造

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

AC-EVAL：在大型语言模型中评估古汉语理解能力

为了满足大型语言模型（LLMs）对古代语境的理解的评估需求，本研究设计了 AC-EVAL 基准测试，用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务，AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势，促进它们在古代汉语语言教育和学术研究领域的发展和应用。

Mar, 2024

ViLLM-Eval：越南大型语言模型的综合评估套件

本研究介绍了 ViLLM-Eval，一个综合评估套件，用于衡量基于越南语背景下的基础模型的高级知识和推理能力，通过多项选择题和预测下一个单词的任务，评估了最先进的大语言模型在 ViLLM-Eval 上的表现，揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间，该套件将有助于发现基础模型的关键优势和劣势，最终促进其发展并提升在越南用户中的性能。

Apr, 2024

CLEVA：中文语言模型评估平台

为解决当前评估中文大型语言模型的挑战，我们提出了 CLEVA，一个用户友好的平台，通过标准化的流程评估模型的性能，并定期更新排行榜。CLEVA 还通过策略性的数据采样来减少数据污染，并通过易于使用的界面和模型 API 使用户能够进行全面评估。大规模实验已验证 CLEVA 的有效性。

Aug, 2023

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE 是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题，涵盖 30 个学科的 75 个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明，LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

RoleEval：大型语言模型的双语角色评估基准

该论文介绍了 RoleEval，一个旨在评估角色知识的记忆、利用和推理能力的双语基准测试，包括 RoleEval-Global 和 RoleEval-Chinese 这两个部分，旨在系统地探索角色的个人信息、关系、能力和经历的基础知识和多跳推理能力。通过对多个大型语言模型在不同设置下对 RoleEval 的广泛评估，我们发现 GPT-4 在 RoleEval-Global 上表现出色，而中文语言模型在 RoleEval-Chinese 上则表现优异，凸显了知识分布差异的重要性。我们期望 RoleEval 能够凸显对各种语言和文化背景下基础模型的角色知识评估的重要性。

Dec, 2023