Aug, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

TL;DR这篇论文提出了 SciEval 基准评估体系,以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学,覆盖了四个维度,系统评估科学研究能力。研究者进行了全面的实验证明,尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现,但仍有很大的改进空间,特别是在动态问题方面。数据和代码现已公开。