Sep, 2024

RepairBench:前沿模型程序修复排行榜

TL;DR本研究解决了当前程序修复领域缺乏标准化评估的问题,提出了RepairBench作为一种新型排行榜,旨在对AI驱动的程序修复模型进行频繁和标准化的评估。研究的关键见解在于RepairBench基于执行的评估方法,通过与真实世界的程序修复任务对比,评估最新的模型,并公开发布评估框架,推动该领域的发展。