May, 2024

DevEval:与现实世界源代码仓库对齐的手动注释代码生成基准

TL;DR通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。