自动程序修复：新兴趋势对基准测试提出和暴露问题

May, 2024

自动程序修复：新兴趋势对基准测试提出和暴露问题

Automated Program Repair: Emerging trends pose and expose problems for benchmarks

Joseph Renzullo, Pemma Reiter, Westley Weimer, Stephanie Forrest

TL;DR机器学习在自动程序修复领域中广泛应用，使用神经机器翻译和大型语言模型生成软件补丁等任务，但与以往的研究存在重要差异，因此评估和比较结果必须谨慎确保其有效性和普遍性，挑战在于现有的评估基准并非针对机器学习技术设计，尤其是大型语言模型，其训练数据集通常庞大且披露不足，可能包含了其所评估的问题。

Abstract

machine learning (ML) now pervades the field of automated program repair (APR). Algorithms deploy neural machine translation and

machine learning automated program repair neural machine translation large language models apr evaluation benchmarks

发现论文，激发创造

利用大型语言模型修复 Python 作业中的错误

使用 Codex 这样的大型编程语言模型，在多模式提示、迭代式查询、基于测试用例的少样本选择和程序块组合的帮助下，构建了一个自动编程修复 (MMAPR) 系统来解决学生在 Python 编程课程中常见的语法和语义错误问题，并与已有基线方案相比较得出了较好的结果。

Sep, 2022

使用大型语言模型进行往返翻译的自动程序修复新方法

通过大型语言模型实现的往返翻译可用于自动程序修复，修正语法错误并还原代码中的常见模式，具有在软件工程研究中的潜力。

Jan, 2024

RepairLLaMA: 高效表示与微调适配器用于程序修复

RepairLLaMA 是一种新颖的程序修复方法，结合了 APR 的代码表示和名为 LoRA 的最先进的参数高效 LLM 微调技术，从而产生了一个高度有效的 “程序修复适配器” 来修复语言模型中的错误。

Dec, 2023

教育计划修复基准测试

为了促进竞争方法的公平比较和标准化，该研究提出了一个新颖的教育性程序修复基准，对两个高质量的编程数据集进行整理，引入一种新的评估度量指标 rouge@k 来评估修复质量，并评估了五种最近的模型以建立基础性能。

May, 2024

神经网络修复安全漏洞的有效性

本文首次研究并比较了基于大型代码语言模型和基于深度学习的自动化程序修复技术在 Java 漏洞修复方面的能力，结果表明现有的语言模型和程序修复技术修复的 Java 漏洞很少，呼吁创新提高 Java 漏洞修复的自动化程度。

May, 2023

为无 FL 修复程序对齐 LLMs

本文研究了一种新的适用于程序修复的方法，发现目标对齐对于充分利用 LLM 的预训练能力是关键的，并通过直接调试替代传统的定位 - 修复工作流程，提出了一种新的思路来利用 LLMs 进行 APR。

Apr, 2024

RunBugRun -- 一个用于自动程序修复的可执行数据集

通过提供一个可完全执行的、由 450,000 个错误 / 修复的代码对组成的数据集及其测试 / 编译基础设施和详细的 bug 类型标签，本文旨在促进神经程序修复技术向可执行代码表示转型，提高基于执行的特征的使用，并通过包括多种不同语言的数据集，平衡当前 Automated Program Repair 数据集和基准测试方向中 Java 语言的主导地位。

Apr, 2023

NARRepair: 自动程序修复的非自回归编码生成模型

采用非自回归方法 (NAR) 的自动程序修复 (APR) 技术 (NARRepair) 可在并行方式下输出目标代码，从而避免大量的推理延迟，同时提高修复精度。

Jun, 2024

自动程序修复的代码感知神经机器翻译 (CURE)

提出了一种名为 CURE 的新型自动程序修复技术，通过预先训练编程语言模型和设计新的基于代码的搜索策略来解决现有神经机器翻译方法存在的限制，CURE 技术在两个广泛使用的基准测试中表现出了优异的修复效果。

Feb, 2021

基于同行援助的修复器：赋予大型语言模型修复高级学生作业的能力

我们基于大型语言模型（LLM）提出了一个名为 PaR 的框架，用于解决高级编程作业中的程序错误修复问题，并通过对新的高级学生作业数据集（Defects4DS）和另一个经过深入调查的 ITSP 数据集的评估，展示了超越现有 LMM - 和基于符号的方法的最新性能提升（分别达到了 19.94％和 15.2％的修复率提高）。

Apr, 2024