SciEval: 一个用于科学研究的多级大型语言模型评估基准
大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了 SciKnowEval 基准,这是一个新颖的框架,从五个渐进的科学知识水平对 LLMs 进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例,并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示,尽管取得了最先进的性能,专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs,并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。
Jun, 2024
使用合成任务来评估大型语言模型(LLMs)的研究方法 S3Eval,在 S3Eval 与真实世界基准测试之间存在强相关性,同时揭示了模型性能的一些深度分析和反直觉趋势。
Oct, 2023
目前缺乏对大型语言模型(LLMs)在心理健康领域能力评估的全面基准。因此,我们填补该空白,并引入了首个适用于心理健康领域特点的全面基准,包括六个子任务、三个维度,系统评估 LLMs 在心理健康领域的能力。我们为每个子任务设计了相应的简明提示,并全面评估了八个先进的 LLMs 使用我们的基准。实验结果不仅展示了当前 LLMs 在心理健康方面的改进空间,还揭示了未来模型优化的潜在方向。
Nov, 2023
大型语言模型的基准评估 SciEx 提出,用于评估 LLM 在解决科学任务上的能力,并通过比较 LLM 和学生在 SciEx 上的表现,提出了 LLM 作为评分者的方法。
Jun, 2024
最近大规模语言模型(LLMs)的突破性进展在自然语言理解和生成方面带来了革命性的变化,引发了对将这些技术应用于科学文献分析这一细分领域的兴趣激增。然而,现有的基准不足以充分评估 LLM 在科学领域,尤其是在涉及复杂理解和多模态数据的情景中的能力。本文介绍了 SciAssess,这是一个专门用于深入分析科学文献的基准,旨在对 LLM 的效能进行全面评估。SciAssess 专注于评估 LLM 在科学背景下的记忆、理解和分析能力。它包括来自不同科学领域的代表性任务,例如普通化学、有机材料和合金材料。严格的质量控制措施确保了其在正确性、匿名性和版权合规性方面的可靠性。SciAssess 评估了领先的 LLM,包括 GPT-4、GPT-3.5-turbo 和 Gemini,并确定了它们的优势和改进的领域,支持 LLM 在科学文献分析领域的持续发展。SciAssess 及其资源可在此 https URL 上获得,为推进 LLM 在科学文献分析中的能力提供了一个有价值的工具。
Mar, 2024
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性 LLM 进行了深入的基准研究,采用多种提示策略。结果表明,当前 LLM 的表现不尽如人意,综合得分仅为 35.80%。此外,通过详细的用户研究,我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023
最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集 LLMEval,并对 20 个大型语言模型进行了评估,得出了 10 个结论,为将来的语言模型评估提供了一些启示。
Dec, 2023
通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL,针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了 GPT 4.0。然而,几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时,研究结果还表明,思维链技术(CoT)仅在具有挑战性的科学学科上有效,而一键提示对于文科学科更加有益。通过 E-EVAL,旨在分析 LLM 在教育应用中的优势和局限,推动中国 K-12 教育和 LLM 的进步与发展。
Jan, 2024
在 AI 运维领域中,对于保证信息系统有序和稳定运行,日志分析至关重要。然而,现有大语言模型在日志分析任务中的表现尚未得到充分验证。为此,我们引入了 LogEval,这是一个综合性基准套件,旨在首次评估大语言模型在不同日志分析任务中的能力。这个基准套件包括日志解析、日志异常检测、日志故障诊断和日志摘要等任务。通过对领先的大语言模型进行严格评估,我们展示了不同大语言模型技术对日志分析性能的影响,重点关注自一致性和少样本上下文学习等方面。我们还讨论了与模型量化、中英文问答评估和提示工程相关的发现。这些发现深入了解了大语言模型在多语言环境中的优势和弱点,以及不同提示策略的有效性。通过采用不同任务的各种评估方法,准确衡量了大语言模型在日志分析中的性能,确保了全面的评估。从 LogEval 评估中获得的见解揭示了大语言模型在日志分析任务中的优势和局限性,为研究人员和从业人员提供了宝贵的指导。
Jul, 2024
在这项工作中,我们提出了 S-Eval,这是一个新的全面、多维度且开放的安全评估基准,通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合,自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系,覆盖了全面多维的安全风险,同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估,结果表明相比现有的基准,S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。
May, 2024