C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

May, 2023

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang...

TL;DR通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

Abstract

New nlp benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present c-eval, the first c

nlp benchmarks large language models c-eval comprehensive evaluation chinese-oriented models

发现论文，激发创造

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

AC-EVAL：在大型语言模型中评估古汉语理解能力

为了满足大型语言模型（LLMs）对古代语境的理解的评估需求，本研究设计了 AC-EVAL 基准测试，用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务，AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势，促进它们在古代汉语语言教育和学术研究领域的发展和应用。

Mar, 2024

评估大型中文语言模型的生成能力

CG-Eval 是首个综合评估大型中文语言模型在广泛学科领域中生成能力的研究，以多个指标的加权和为基础派生出 Gscore 综合指数，用于评估模型生成的质量。

Aug, 2023

CLEVA：中文语言模型评估平台

为解决当前评估中文大型语言模型的挑战，我们提出了 CLEVA，一个用户友好的平台，通过标准化的流程评估模型的性能，并定期更新排行榜。CLEVA 还通过策略性的数据采样来减少数据污染，并通过易于使用的界面和模型 API 使用户能够进行全面评估。大规模实验已验证 CLEVA 的有效性。

Aug, 2023

ViLLM-Eval：越南大型语言模型的综合评估套件

本研究介绍了 ViLLM-Eval，一个综合评估套件，用于衡量基于越南语背景下的基础模型的高级知识和推理能力，通过多项选择题和预测下一个单词的任务，评估了最先进的大语言模型在 ViLLM-Eval 上的表现，揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间，该套件将有助于发现基础模型的关键优势和劣势，最终促进其发展并提升在越南用户中的性能。

Apr, 2024

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024