使用中国初中考试数据评估大型语言模型的基准测试CJEval
提出了EXAMS——高中跨语言和多语言问答的新基准数据集。收集了超过24,000个高质量的高中考试问题,涵盖了8个语言家族和24个学科,其中包括自然科学和社会科学等。
Nov, 2020
通过C-Eval对基础模型的评估,结果表明,只有GPT-4能够在C-Eval上获得平均超过60%的准确度,这暗示着当前的大语言模型仍有很大的提升空间。
May, 2023
通过引入 CMExam 数据集,该研究在医学领域中解决了对大型语言模型进行评估的挑战,同时还通过对CMExam的深入分析,详细介绍了LLMs在中国医学中的表现和挑战。
Jun, 2023
该论文介绍了一种利用人类考试题目来全面评估大型语言模型(LLMs)的基准测试M3Exam,该测试具有多语言、多模态和多级结构的特点,在低资源和非拉丁语文本方面,当前模型(包括GPT-4)仍然难以应对多语言文本,同时多模态LLMs在复杂多模态问题上表现不佳。
Jun, 2023
通过在HAE-RAE评估中发现,相较于全面的通用模型GPT-3.5,大规模的语言特定模型(LLSMs)在语言特定知识检索方面展现出类似的性能水平,强调了使用同质化语料库来训练专业级语言特定模型的重要性,但较小的LLMs在生成结构化回答时表现出令人困惑的性能下降。
Sep, 2023
通过介绍首个专为中国K-12教育领域设计的综合评估基准E-EVAL,针对LLM在该领域的各种能力提供准确评估。E-EVAL由4,351道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了GPT 4.0。然而,几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的LLM在小学阶段的得分并不高于中学阶段的得分。同时,研究结果还表明,思维链技术(CoT)仅在具有挑战性的科学学科上有效,而一键提示对于文科学科更加有益。通过E-EVAL,旨在分析LLM在教育应用中的优势和局限,推动中国K-12教育和LLM的进步与发展。
Jan, 2024
LLMs在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估LLMs对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。
Feb, 2024
LHMKE是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题,涵盖30个学科的75个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明,LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。
Mar, 2024
通过评估Large Language Models(LLMs)的现状,我们探讨了LLMs在韩语背景下的语用能力,包括常规的多项选择题和开放式问题的评估,结果显示GPT-4在两种评估设置中表现出色,分别获得81.11和85.69分,HyperCLOVA X也得到了良好的分数,尤其在开放式问题的评估中,获得了81.56分,与GPT-4相比仅相差4.13分,而使用CoT提示的少样本学习策略则引入了对字面解释的偏见,限制了准确的语用推理能力,这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。
Mar, 2024
本研究解决了大型语言模型在中国教育价值观对齐方面的不足。提出了Edu-Values评估基准,通过设计1,418个问题,评估LLMs在专业意识、文化素养等七个维度的表现。研究发现,中国LLMs在教育文化背景下明显优于英语LLMs,并揭示了LLMs在教学技能方面表现良好但在教师职业道德和基本能力上存在不足。
Sep, 2024