Mar, 2025

评估大型语言模型在自动程序修复中的泛化能力

TL;DR本研究针对大型语言模型(LLMs)在自动程序修复(APR)任务中的泛化能力进行评估,发现这些模型在新的数据集DEFECTS4J-TRANS上的表现显著下降,正确和合理的修复数量分别减少了49.48%和42.90%。尽管引入修复相关信息能够提升模型能力,但整体性能仍未达到原有结果,表明仅靠提示工程无法显著改善LLMs的修复能力。