Aug, 2023

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

TL;DR我们首次尝试在更具挑战性的类级代码生成情景中评估LLMs,并构建了一个包括100个类级Python代码生成任务的基准测试集,通过对11种最新LLMs在类级代码生成任务上的研究,发现现有LLMs在类级代码生成上表现较差,GPT-4和GPT-3.5在类级代码生成上的表现卓越,而逐方法生成是其他模型更好的策略。