SciKnowEval: 评估大规模语言模型的多级科学知识

Jun, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang...

TL;DR大型语言模型（LLMs）在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题，我们引入了SciKnowEval基准，这是一个新颖的框架，从五个渐进的科学知识水平对LLMs进行系统评估：广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估LLMs的科学知识的广度和深度，包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为SciKnowEval的两个示例，并构建了一个包含50,000个多层次科学问题和解决方案的数据集。通过利用这个数据集，我们使用零提示和少量提示策略对20个领先的开源和专有LLMs进行了评估。结果显示，尽管取得了最先进的性能，专有的LLMs在解决科学计算和应用方面仍有相当大的改进空间。我们预计SciKnowEval将建立一个全面的标准来评估科学研究和发现中的LLMs，并促进将科学知识与强大的安全意识融入LLMs的发展。数据集和代码可在此https URL上公开获取。

Abstract

The burgeoning utilization of large language models (llms) in scientific research necessitates advanced benchmarks capable of evaluating their understanding and application of →