Mar, 2024

EvoCodeBench: 一个与真实世界代码仓库对齐的演化代码生成基准

TL;DR评估大型语言模型在代码生成中的方法是一个开放性问题。本文提出了一个新的基准测试 - EvoCodeBench,用于解决现有基准测试与实际代码仓库的对接不足以及评估 LLMs 的编码能力不足的问题。