Mar, 2024

LiveCodeBench:大规模语言模型对代码进行全面无污染评估

TL;DR本文提出了一个面向代码的综合、无污染评估系统 LiveCodeBench,其中收集了来自 LeetCode、AtCoder 和 CodeForces 三个竞赛平台的问题,着重评估 LLMs 在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。