Aug, 2023
SciEval: 一个用于科学研究的多级大型语言模型评估基准
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
Scientific Research
TL;DR这篇论文提出了SciEval基准评估体系,以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval基于Bloom的认知分类学,覆盖了四个维度,系统评估科学研究能力。研究者进行了全面的实验证明,尽管GPT-4在与其他LLMs相比取得了最先进的表现,但仍有很大的改进空间,特别是在动态问题方面。数据和代码现已公开。