Sep, 2024

使用中国初中考试数据评估大型语言模型的基准测试CJEval

TL;DR本研究针对现有学术基准在实际教育场景中指导不足的问题,提出了基于中国初中考试评估的CJEval基准。该基准包含26,136个样本,涵盖四个教育应用任务,提供了详尽的注释。研究表明,CJEval能够有效评估大型语言模型在教育中的潜在应用,同时揭示了该领域的机遇与挑战。