SciEx：基于人工评分和自动评分的科学考试大型语言模型评测

Jun, 2024

SciEx：基于人工评分和自动评分的科学考试大型语言模型评测

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

Tu Anh Dinh, Carlos Mullov, Leonard Bärmann, Zhaolin Li, Danni Liu...

TL;DR大型语言模型的基准评估 SciEx 提出，用于评估 LLM 在解决科学任务上的能力，并通过比较 LLM 和学生在 SciEx 上的表现，提出了 LLM 作为评分者的方法。

Abstract

With the rapid development of large language models (LLMs), it is crucial to have benchmarks which can evaluate the ability of LLMs on different domains. One common use of LLMs is performing tasks on scientific topics, such as writing algorithms, querying databases or giving mathematic

large language models sciex benchmark scientific tasks llm performance

发现论文，激发创造

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试 M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括 GPT-4）仍然难以应对多语言文本，同时多模态 LLMs 在复杂多模态问题上表现不佳。

Jun, 2023

SciAssess：科学文献分析 LLM 熟练度评估

最近大规模语言模型（LLMs）的突破性进展在自然语言理解和生成方面带来了革命性的变化，引发了对将这些技术应用于科学文献分析这一细分领域的兴趣激增。然而，现有的基准不足以充分评估 LLM 在科学领域，尤其是在涉及复杂理解和多模态数据的情景中的能力。本文介绍了 SciAssess，这是一个专门用于深入分析科学文献的基准，旨在对 LLM 的效能进行全面评估。SciAssess 专注于评估 LLM 在科学背景下的记忆、理解和分析能力。它包括来自不同科学领域的代表性任务，例如普通化学、有机材料和合金材料。严格的质量控制措施确保了其在正确性、匿名性和版权合规性方面的可靠性。SciAssess 评估了领先的 LLM，包括 GPT-4、GPT-3.5-turbo 和 Gemini，并确定了它们的优势和改进的领域，支持 LLM 在科学文献分析领域的持续发展。SciAssess 及其资源可在此 https URL 上获得，为推进 LLM 在科学文献分析中的能力提供了一个有价值的工具。

Mar, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了 SciKnowEval 基准，这是一个新颖的框架，从五个渐进的科学知识水平对 LLMs 进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例，并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示，尽管取得了最先进的性能，专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs，并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。

Jun, 2024

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

在回答和解释棘手的医学问题上评估大型语言模型

通过构建两个新的数据集，利用多个评估指标以及医学专家编写的解释进行实验，我们发现 LLMs 在回答医学问题方面表现出色，但是现有的基准测试数据集在捕捉真实临床病例的复杂性以及提供参考解释方面存在不足，因此需要开发新的度量指标以支持可解释医疗问答的未来研究。

Feb, 2024

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

如人类评分：用大型语言模型重新思考自动评估

我们提出了一个基于大型语言模型的评分系统，包括开发评分标准，提供准确一致的得分和定制化反馈，以及进行后评估，并在新的数据集上进行了广泛实验，验证了我们的方法的有效性。

May, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023