代码 R：多智能体和任务图的问题解决

Jun, 2024

代码 R：多智能体和任务图的问题解决

CodeR: Issue Resolving with Multi-Agent and Task Graphs

Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang...

TL;DR采用多智能体框架和预定义的任务图，提出了 CodeR，用于修复和解决代码存储库中报告的错误和添加新功能。在 SWE-bench lite 中，CodeR 能够解决 28.00％的问题，每个问题仅需提交一次。检验了 CodeR 的每个设计对性能的影响，并提供了推进这个研究方向的见解。

Abstract

github issue resolving recently has attracted significant attention from academia and industry. swe-bench is proposed to measure the performance in resolving issues. In this paper, we propose →

github issue resolving swe-bench coder multi-agent framework performance impact

发现论文，激发创造

SWE-bench：能否通过语言模型解决真实世界的 GitHub 问题？

评估了新一代语言模型在软件工程领域的能力，通过 SWE-bench 框架提供了包括软件工程问题和对应 Python 库的真实 GitHub 问题的解决方案，结果表明目前的模型在解决问题时仍存在困难，呼吁进一步提高模型在实际应用中的智能和自主能力。

Oct, 2023

SWE-agent: 代理 - 计算机接口实现自动化软件工程

介绍了一种名为 SWE-agent 的自主系统，它使用一种语言模型与计算机进行交互解决软件工程任务。通过自定义的 agent-computer interface (ACI) 界面，SWE-agent 能够增强代理程序创建和编辑代码文件、浏览整个代码库和执行程序的能力。在 SWE-bench 上，与检索增强生成 (retrieval-augmented generation, RAG) 技术达到的 3.8% 相比，SWE-agent 能够解决 12.5% 的问题。研究还探讨了 ACI 设计对代理程序行为和性能的影响，并提供了有效设计的建议。

May, 2024

AutoCodeRover：自主程序改进

提出了一种自动化的方法 AutoCodeRover，将 LLMs 与复杂的代码搜索能力相结合，从而实现对 Github 问题的自主解决，进而实现程序改进。

Apr, 2024

R2C2-Coder：提升和评估代码大型语言模型的真实世界仓库级代码补全能力

基于大型语言模型的 R2C2-Coder 方法增强和评估了真实世界的代码仓库级代码补全能力，其中 R2C2-Coder 包括 R2C2-Enhance 方法和 R2C2-Bench 基准测试。

Jun, 2024

MAGIS：基于 LLM 的 GitHub 问题解决多智能体框架

在软件演化中，解决 GitHub 存储库中的新出现问题是一个复杂的挑战。为了克服这些挑战，我们提出了一种基于大型语言模型（LLMs）的多智能体框架 MAGIS，它由四种定制化的代理人组成，通过规划和编码过程中的各种代理人的协作来发挥 LLMs 解决 GitHub 问题的潜力。我们通过使用 SWE-bench 基准测试来比较 MAGIS 与流行的 LLMs 如 GPT-3.5、GPT-4 和 Claude-2，结果显示 MAGIS 可以解决 13.94% 的 GitHub 问题，明显优于基准测试结果。

Mar, 2024

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024

Detect-Localize-Repair: 使用 CodeT5 学习调试的统一框架

提出了一种基于预训练编程语言模型 CodeT5 的新型统一 “Detect-Localize-Repair” 框架 CodeT5-DLR，它包括三个目标，即 bug 检测、定位和程序修复，并在 Java 和 Python 的两个新收集的行级调试数据集上进行了评估。结果表明，该模型在 NLP 和软件工程领域的现有基线上显著优于其他机器学习方法。

Nov, 2022

RepoBench：评估代码自动完成系统的存储库水平性能

该研究介绍一种名为 RepoBench 的新基准，旨在评估特定于存储库的代码自动完成系统，该基准包含三个相互关联的评估任务：RepoBench-R（检索），RepoBench-C（代码完成）和 RepoBench-P（管道），每个任务分别衡量系统从其他文件中检索最相关的代码片段的能力作为跨文件上下文，使用跨文件和文件内上下文预测代码的下一行以及处理需要检索和下一行预测组合的复杂任务。

Jun, 2023

如何理解整个软件库？

我们开发了一种名为 RepoUnderstander 的新型自动软件工程（ASE）方法，通过指导代理程序全面了解整个代码库，将关键的整个代码库信息压缩成知识图，采用蒙特卡罗树搜索探索策略，通过分析和规划，使代理程序能够动态获取信息并生成补丁解决实际 GitHub 问题，实验证明了其优越性和有效性。

Jun, 2024

使用大规模异构图表示学习为微软提供代码审查建议

介绍了一种基于 SOCIO 技术图和图卷积神经网络的代码审查人员推荐新方法 CORAL，该方法可以找到传统推荐器遗漏的相关资格审查员，并对大型项目进行优化，而小型项目则建议采用传统方法。

Feb, 2022