SciAssess：科学文献分析LLM熟练度评估

Mar, 2024

SciAssess：科学文献分析LLM熟练度评估

SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis

Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao...

TL;DR最近大规模语言模型（LLMs）的突破性进展在自然语言理解和生成方面带来了革命性的变化，引发了对将这些技术应用于科学文献分析这一细分领域的兴趣激增。然而，现有的基准不足以充分评估LLM在科学领域，尤其是在涉及复杂理解和多模态数据的情景中的能力。本文介绍了SciAssess，这是一个专门用于深入分析科学文献的基准，旨在对LLM的效能进行全面评估。SciAssess专注于评估LLM在科学背景下的记忆、理解和分析能力。它包括来自不同科学领域的代表性任务，例如普通化学、有机材料和合金材料。严格的质量控制措施确保了其在正确性、匿名性和版权合规性方面的可靠性。SciAssess评估了领先的LLM，包括GPT-4、GPT-3.5-turbo和Gemini，并确定了它们的优势和改进的领域，支持LLM在科学文献分析领域的持续发展。SciAssess及其资源可在此https URL上获得，为推进LLM在科学文献分析中的能力提供了一个有价值的工具。

Abstract

Recent breakthroughs in large language models (LLMs) have revolutionized natural language understanding and generation, igniting a surge of interest in leveraging these technologies for the nuanced field of scientific l