Apr, 2025

CoCo-Bench:多任务大型语言模型评估的综合代码基准

TL;DR本研究解决了现有基准在软件工程中缺乏全面评估框架的问题。论文提出了CoCo-Bench,它通过代码理解、生成、修改和审查四个维度综合评估大型语言模型,涵盖多种编程语言和任务难度。研究表明CoCo-Bench能够揭示模型表现的显著差异,为未来的代码导向大型语言模型研究提供了可靠的基准。