Mar, 2024

CodeBenchGen: 创建可扩展的基于执行的代码生成基准

TL;DR用 CodeBenchGen 框架创建可扩展的基于执行的基准测试,利用大型语言模型将任意代码转换为评估示例,并通过 Exec-CSN 数据集展示了人类和模型在代码生成系统上的性能分析。