Jun, 2024

SciKnowEval: 评估大规模语言模型的多级科学知识

TL;DR大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了 SciKnowEval 基准,这是一个新颖的框架,从五个渐进的科学知识水平对 LLMs 进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例,并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示,尽管取得了最先进的性能,专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs,并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。