使用中国初中考试数据评估大型语言模型的基准测试CJEval

Sep, 2024

使用中国初中考试数据评估大型语言模型的基准测试CJEval

CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data

Qian-Wen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao...

TL;DR本研究针对现有学术基准在实际教育场景中指导不足的问题，提出了基于中国初中考试评估的CJEval基准。该基准包含26,136个样本，涵盖四个教育应用任务，提供了详尽的注释。研究表明，CJEval能够有效评估大型语言模型在教育中的潜在应用，同时揭示了该领域的机遇与挑战。

Abstract

Online education platforms have significantly transformed the dissemination of educational resources by providing a dynamic and digital infrastructure. With the further enhancement of this transformation, the advent of Large Language Models (LLMs) has elevated the intelligence levels o

发现论文，激发创造

EXAMS：多语种跨语言问题回答的多科目高中考试数据集

提出了EXAMS——高中跨语言和多语言问答的新基准数据集。收集了超过24,000个高质量的高中考试问题，涵盖了8个语言家族和24个学科，其中包括自然科学和社会科学等。

Nov, 2020

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过C-Eval对基础模型的评估，结果表明，只有GPT-4能够在C-Eval上获得平均超过60%的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

在CMExam上对大型语言模型进行基准测试——一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对CMExam的深入分析，详细介绍了LLMs在中国医学中的表现和挑战。

Jun, 2023

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括GPT-4）仍然难以应对多语言文本，同时多模态LLMs在复杂多模态问题上表现不佳。

Jun, 2023

HAE-RAE Bench：韩国知识在语言模型中的评估

通过在HAE-RAE评估中发现，相较于全面的通用模型GPT-3.5，大规模的语言特定模型(LLSMs)在语言特定知识检索方面展现出类似的性能水平，强调了使用同质化语料库来训练专业级语言特定模型的重要性，但较小的LLMs在生成结构化回答时表现出令人困惑的性能下降。

Sep, 2023

E-EVAL：大型语言模型的全面中国K-12教育评估基准

通过介绍首个专为中国K-12教育领域设计的综合评估基准E-EVAL，针对LLM在该领域的各种能力提供准确评估。E-EVAL由4,351道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的LLM在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过E-EVAL，旨在分析LLM在教育应用中的优势和局限，推动中国K-12教育和LLM的进步与发展。

Jan, 2024

CIF-Bench：一个用于评估大型语言模型通用性的中文指令遵循基准

LLMs在处理中文任务方面存在限制，该研究引入了中文指令跟踪基准（CIF-Bench），评估LLMs对中文语言的零射击泛化能力，并揭示出评估偏差和性能差距问题。

Feb, 2024

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题，涵盖30个学科的75个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明，LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

韩国大型语言模型的实用能力评估

通过评估Large Language Models（LLMs）的现状，我们探讨了LLMs在韩语背景下的语用能力，包括常规的多项选择题和开放式问题的评估，结果显示GPT-4在两种评估设置中表现出色，分别获得81.11和85.69分，HyperCLOVA X也得到了良好的分数，尤其在开放式问题的评估中，获得了81.56分，与GPT-4相比仅相差4.13分，而使用CoT提示的少样本学习策略则引入了对字面解释的偏见，限制了准确的语用推理能力，这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。

Mar, 2024

教育价值观：评估大型语言模型的中国教育价值

本研究解决了大型语言模型在中国教育价值观对齐方面的不足。提出了Edu-Values评估基准，通过设计1,418个问题，评估LLMs在专业意识、文化素养等七个维度的表现。研究发现，中国LLMs在教育文化背景下明显优于英语LLMs，并揭示了LLMs在教学技能方面表现良好但在教师职业道德和基本能力上存在不足。

Sep, 2024