Sep, 2023

CodeApex: 大型语言模型的双语编程评估基准

TL;DRCodeApex 是一个双语基准数据集,专注于评估大型语言模型(LLMs)在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成,用于评估 LLMs 在编程理解任务上的能力,同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs,发现 GPT 展现出最佳的编程能力,在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考,进一步推动其发展和增长。