Xiezhi:一种全面领域知识评估的不断更新基准
LHMKE 是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题,涵盖 30 个学科的 75 个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明,LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。
Mar, 2024
大语言模型的综合性和准确性评估需要全面而系统的基准。为此,我们提出了 ZhuJiu 基准,具有综合评估大语言模型的多维能力覆盖,多方面合作评估方法,全面的中文基准以及避免潜在数据泄漏的特点。我们对 10 个当前主流大语言模型进行了评估,并对结果进行了深入的讨论和分析。
Aug, 2023
通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL,针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了 GPT 4.0。然而,几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时,研究结果还表明,思维链技术(CoT)仅在具有挑战性的科学学科上有效,而一键提示对于文科学科更加有益。通过 E-EVAL,旨在分析 LLM 在教育应用中的优势和局限,推动中国 K-12 教育和 LLM 的进步与发展。
Jan, 2024
LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。
Nov, 2023
本文介绍 WYWEB 评估基准,它由 9 个古汉语 NLP 任务组成,包括句子分类、序列标注、阅读理解和机器翻译,并评估了现有的预训练语言模型在这个基准上的表现,并提出了一些补充数据集和工具,以进一步促进古代汉语 NLU 的进展。
May, 2023
本文介绍了一个包含十万条问题的中英混合数据集 DomMa,它是一个综合多领域、大量数据的评测系统,目的是用于测试大型语言模型在领域语言理解方面的能力,并提出了更适合大型语言模型的评测设计。
Apr, 2023
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
通过构建一个综合的人工评估框架,我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法,同时设计了详细的评估标准和过程,释放了一个包含不同难度水平和知识领域的测试集,并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法,旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。
Nov, 2023
使用 FinEval 基准测试,评估了当前中文和英文大型语言模型在金融领域知识方面的表现,结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度,表明大型语言模型在金融领域知识方面具有显著的增长潜力。
Aug, 2023