Jun, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

TL;DR本研究设计了一个基于 Python 程序的新评测标准 StudentEval, 使用多个具体的非专家受试者编写的问题提示,对比评估了 5 种 Code LLM 模型的性能,结果表明这种评测标准是更好的模型性能判别标准。同时,研究还发现了学生提示技术的显著变异和 LLM 采样的不确定性可能会误导学生,这些发现对于使用 Code LLMs 进行教学具有影响。