Aug, 2023

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

TL;DR我们首次尝试在更具挑战性的类级代码生成情景中评估 LLMs,并构建了一个包括 100 个类级 Python 代码生成任务的基准测试集,通过对 11 种最新 LLMs 在类级代码生成任务上的研究,发现现有 LLMs 在类级代码生成上表现较差,GPT-4 和 GPT-3.5 在类级代码生成上的表现卓越,而逐方法生成是其他模型更好的策略。