FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

Apr, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models

Wei Li, Ren Ma, Jiang Wu, Chenya Gu, Jiahui Peng...

TL;DR本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Abstract

In the burgeoning field of large language models (LLMs), the assessment of fundamental knowledge remains a critical challenge, particularly for models tailored to Chinese language and culture. This paper introduces foun

large language models foundabench chinese llms benchmark knowledge capabilities

发现论文，激发创造

CFinBench：大型语言模型的全面中文金融基准

提出了 CFinBench：一个经过精心设计的，迄今为止最全面的评估基准，用于评估大型语言模型在中国金融领域的金融知识，包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明，GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能，平均准确率高达 60.16%。

Jul, 2024

F-Eval: 使用精细评估方法评估基本能力

我们提出了 F-Eval，这是一个双语评估基准，旨在评估大型语言模型的基本能力，包括表达能力、常识和逻辑。我们进行了 13 个先进 LLM 的评估，结果显示我们的评估方法与其他评估者相比具有更高的相关系数和更大的区别，并讨论了不同模型大小、维度和归一化方法的影响。我们期望 F-Eval 能促进对 LLMs 基本能力的研究。

Jan, 2024

LAiW：中国法律大型语言模型基准（技术报告）

我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力，我们将法学硕士的法律能力分为三个层次：基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估，主要关注基本法律自然语言处理能力。评估结果显示，尽管一些法学硕士在性能上优于它们的基础模型，但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。

Oct, 2023

PsyBench: 一个平衡且深入的心理学中文评估基准

LLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，并发现不同领域的性能存在显著差异，展示了测试集中知识不均衡可能导致结果偏斜的风险，仅 ChatGPT 模型的平均准确率超过 70％，表明仍有很大的改进空间。总之，psybench 将有助于对基本模型的优势和劣势进行全面评估，并在心理学领域的实际应用中提供支持。

Nov, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

CIF-Bench：一个用于评估大型语言模型通用性的中文指令遵循基准

LLMs 在处理中文任务方面存在限制，该研究引入了中文指令跟踪基准（CIF-Bench），评估 LLMs 对中文语言的零射击泛化能力，并揭示出评估偏差和性能差距问题。

Feb, 2024

MedBench：一个用于评估医学大型语言模型的大规模中文基准

为了解决医学大语言模型的评估工作耗时且需要大量人力的问题，我们引入了 MedBench，这是一个综合性的基准测试，包括来自医学各领域的 40,041 个问题。通过对医学语言学习模型的知识掌握和推理能力进行评估，MedBench 建立了一个可靠的标准，揭示了医学大语言模型的能力和限制，以帮助医学研究社区。

Dec, 2023

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE 是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题，涵盖 30 个学科的 75 个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明，LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023