Jun, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

TL;DR本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示,对比评估了5种Code LLM模型的性能,结果表明这种评测标准是更好的模型性能判别标准。同时,研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生,这些发现对于使用Code LLMs进行教学具有影响。