Mar, 2025
针对代码任务的自动基准生成
Automated Benchmark Generation for Repository-Level Coding Tasks
TL;DR本研究解决了现有代码代理基准如SWE-Bench在构建过程中需要大量手动努力的问题。提出的SetUpAgent系统可实现历史上准确的依赖关系设置、测试执行和结果解析,从而生成两个新数据集SWEE-Bench和SWA-Bench,显著提高了基准的覆盖面和代表性。研究发现,这些新基准在特征和代码代理性能上与SWE-Bench存在显著差异,揭示了业界开发的潜在误导。