EnviroExam: 大型语言模型的环境科学知识基准测试

May, 2024

EnviroExam: 大型语言模型的环境科学知识基准测试

EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models

Yu Huang, Liang Guo, Wanqian Guo, Zhe Tao, Yang Lv...

TL;DR在环境科学领域，我们提出了 EnviroExam，这是一种综合评估方法，旨在评估大型语言模型在环境科学领域的知识。通过在 31 个开源大型语言模型上进行 0 次和 5 次测试，EnviroExam 揭示了这些模型在环境科学领域中的性能差异，并提供了详细的评估标准。结果表明，在 5 次测试中 61.3% 的模型通过了测试，而在 0 次测试中 48.39% 通过了测试。通过引入变异系数作为指标，我们从多个角度评估了主流开源大型语言模型在环境科学领域的性能，为选择和优化该领域的语言模型提供了有效的标准。未来的研究将涉及使用专门的环境科学教材构建更多领域特定的测试集，以进一步提高评估的准确性和特异性。

Abstract

In the field of environmental science, it is crucial to have robust evaluation metrics for large language models to ensure their efficacy and accuracy. We propose →

environmental science evaluation method large language models enviroexam performance differences

发现论文，激发创造

SciEx：基于人工评分和自动评分的科学考试大型语言模型评测

大型语言模型的基准评估 SciEx 提出，用于评估 LLM 在解决科学任务上的能力，并通过比较 LLM 和学生在 SciEx 上的表现，提出了 LLM 作为评分者的方法。

Jun, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了 SciKnowEval 基准，这是一个新颖的框架，从五个渐进的科学知识水平对 LLMs 进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例，并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示，尽管取得了最先进的性能，专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs，并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。

Jun, 2024

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

我们推出了 EXAMS-V，一个新的多学科多模态多语言考试基准，用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题，如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征，例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同，EXAMS-V 是通过收集各个国家的校园考试问题，采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理，涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明，即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型，这也是一个具有挑战性的数据集；这凸显了数据集的内在复杂性以及作为未来基准的重要性。

Mar, 2024

使用语言模型作为审核器的基础模型基准测试

本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。

Jun, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

LITE：多模态大型语言模型建模环境生态系统

提出了一种用于环境生态系统建模的多模式大型语言模型 LITE，通过将不同的环境变量转化为自然语言描述和折线图像来统一这些变量，并利用统一编码器来捕捉不同模态的空间 - 时间动态和相关性，借助领域指令来融合多模态表示进行预测，从而显著提高了环境空间 - 时间预测的性能，相较于最佳基准线，预测误差减少了 41.25%。

Apr, 2024

M3Exam：一个用于检验大型语言模型的多语言、多模态、多级别基准

该论文介绍了一种利用人类考试题目来全面评估大型语言模型（LLMs）的基准测试 M3Exam，该测试具有多语言、多模态和多级结构的特点，在低资源和非拉丁语文本方面，当前模型（包括 GPT-4）仍然难以应对多语言文本，同时多模态 LLMs 在复杂多模态问题上表现不佳。

Jun, 2023

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

EXAMS：多语种跨语言问题回答的多科目高中考试数据集

提出了 EXAMS—— 高中跨语言和多语言问答的新基准数据集。收集了超过 24,000 个高质量的高中考试问题，涵盖了 8 个语言家族和 24 个学科，其中包括自然科学和社会科学等。

Nov, 2020

开发一个可扩展的基准测试，用于评估大型语言模型在知识图谱工程中的表现

大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题，我们引入了一个基于知识图谱工程的基准评测框架，涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明，尽管具有一定的实用性，大型语言模型在零样本生成知识图谱方面尚不适用。因此，我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制，以及统计数据和可视化工具，以支持指导数据和模型性能的追踪。

Aug, 2023