CLEVA:中文语言模型评估平台
通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL,针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了 GPT 4.0。然而,几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时,研究结果还表明,思维链技术(CoT)仅在具有挑战性的科学学科上有效,而一键提示对于文科学科更加有益。通过 E-EVAL,旨在分析 LLM 在教育应用中的优势和局限,推动中国 K-12 教育和 LLM 的进步与发展。
Jan, 2024
开放评估是一个评估测试基地,以能力、对齐和安全等方面对中文大型语言模型进行基准测试,并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。
Mar, 2024
我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval,特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估,我们对长文本上下文模型的关键能力进行了深入分析,并提供了数据集、评估脚本和模型输出。
Mar, 2024
通过 C-Eval 对基础模型的评估,结果表明,只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度,这暗示着当前的大语言模型仍有很大的提升空间。
May, 2023
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
通过提出综合性的中文基准 SuperCLUE,我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况,并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。
Jul, 2023
介绍了 AlignBench,这是一个多维基准,用于评估中文大型语言模型(LLMs)的对齐能力。使用人机协作的数据处理流程,通过使用 Rule-calibrated 多维 LLM 作为评判者和思维链来生成解释和最终评级,确保评估的可靠性和解释性。此外,开发了专门用于评估中文 LLMs 对齐性的伴侣评估模型 CritiqueLLM,可通过公共 API 提供给研究人员使用。
Nov, 2023
为了满足大型语言模型(LLMs)对古代语境的理解的评估需求,本研究设计了 AC-EVAL 基准测试,用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务,AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势,促进它们在古代汉语语言教育和学术研究领域的发展和应用。
Mar, 2024
评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试,利用现有的英文数据集,并专门针对评估传统汉语语言模型进行调整,包括问答、摘要、分类和表格理解等任务。评估结果表明,我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究,我们已经开源了我们的基准测试并开放了模型供试用。
Sep, 2023
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023