ANGO：面向中文领域的下一级生成导向语言模型评估基准

Jan, 2024

ANGO：面向中文领域的下一级生成导向语言模型评估基准

ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain

Bingchao Wang

TL;DR这篇文章介绍了中国的一种多选题评估基准 ANGO，通过引入关键点分类标准，将每个问题与多个关键点对应，从而有效提高评估结果的可解释性。基于真人表现，我们构建了可量化的问题难度标准，并将 ANGO 问题分为 9 个难度级别，为模型训练提供更精确的指导。为了最小化数据泄露的影响并充分利用 ANGO 的创新特性，我们设计了独家的采样策略和新的评估框架，支持快速的测试集迭代。我们的实验证明，与现有基准相比，ANGO 对模型提出了更大的挑战，并在评估结果中展示了更多细节。

Abstract

Recently, various large language models (LLMs) evaluation datasets have emerged, but most of them have issues with distorted rankings and difficulty in model capabilities analysis. Addressing these concerns, this

large language models evaluation datasets keypoint categorization question difficulty levels evaluation framework

发现论文，激发创造

评估大型语言模型在高考基准测试上的表现

这篇论文介绍了 GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率，发现 ChatGPT 模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

May, 2023

段落级问题生成的生成式语言模型

通过引入 QG-Bench，这是一个多语种，多域基准，对现有的问答数据集进行转换，提出了鲁棒的 QG 基准和基于精细调整的生成语言模型，并对其进行了有效性和适应性分析。

Oct, 2022

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

OlympiadBench：一个挑战性的基准测试，旨在推动具备奥林匹克级双语多模式科学问题的通用人工智能

我们提出了 OlympiadBench，这是一个奥林匹克级双语多模态科学基准，包含来自奥林匹克级数学和物理竞赛以及中国大学入学考试的 8,952 个问题，每个问题都有专家级的逐步推理注释。我们在 OlympiadBench 上评估了一流的模型，并实施了全面的评估方法，从而准确评估模型的响应能力。最佳模型 GPT-4V 在 OlympiadBench 上的平均得分为 17.23％，物理得分仅为 11.28％，突出了基准的严谨性和物理推理的复杂性。我们的分析指出了 GPT-4V 存在的幻觉、知识遗漏和逻辑谬误等普遍问题。希望我们挑战性的基准可以成为未来 AGI 研究努力的宝贵资源。

Feb, 2024

CUGE：一个中文语言理解与生成的评估基准

提出了针对自然语言处理中普适性语言智能评估的全面、系统的评估标准 CUGE，并通过预训练的语言模型的评估结果表明还有改进的空间。

Dec, 2021

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

AGIBench: 一个多粒度、多模态、人用参考、自动评分的大型语言模型基准

这篇论文提出了 AGIBench - 一种多粒度多模态人工参考和自动评分的大型语言模型评估基准方法。

Sep, 2023

OMGEval：一个开放的多语言生成评估基准测试用于大型语言模型

现代大型语言模型 (LLMs) 的研究旨在帮助世界各地的不同文化背景的个人，然而，先前的高级生成式评估基准主要针对英文。为此，我们介绍了 OMGEval，这是第一个可以评估 LLMs 在不同语言中的能力的开源多语言生成性测试集。OMGEval 为每种语言提供了 804 个开放性问题，涵盖了 LLMs 的各种重要能力，如一般知识、逻辑推理等。每个问题都经过人类标注者的严格验证。值得注意的是，为了充分反映 LLMs 在不同文化背景下的兼容性，我们对每种非英文语言进行了本土化处理。目前的版本包括 5 种语言（即，中文、俄语、法语、西班牙语、阿拉伯语）。在 AlpacaEval 的基础上，我们采用 GPT-4 作为仲裁者来自动评分不同的模型输出，证明其与人工评估密切相关。我们在提出的 OMGEval 上评估了几个代表性的多语言 LLMs，我们相信这将为研究共同体进一步理解和改进 LLMs 的多语言能力提供有价值的参考。OMGEval 可以在此 URL 找到。

Feb, 2024

评估大型中文语言模型的生成能力

CG-Eval 是首个综合评估大型中文语言模型在广泛学科领域中生成能力的研究，以多个指标的加权和为基础派生出 Gscore 综合指数，用于评估模型生成的质量。

Aug, 2023

CGCE: 一个用于普及和金融领域的中文生成式聊天评估基准

引入中文生成式聊天评估基准（CGCE）基准，旨在评估和比较生成模型。该基准由 200 个一般领域问题和 150 个专业财务领域问题组成，可评估精确性、条理性、表达清晰度和完成度等因素，为研究人员提供标准框架，促进自然语言生成研究的发展。

May, 2023