Jun, 2024

SciEx:基于人工评分和自动评分的科学考试大型语言模型评测

TL;DR大型语言模型的基准评估 SciEx 提出,用于评估 LLM 在解决科学任务上的能力,并通过比较 LLM 和学生在 SciEx 上的表现,提出了 LLM 作为评分者的方法。