代码 R:多智能体和任务图的问题解决
评估了新一代语言模型在软件工程领域的能力,通过 SWE-bench 框架提供了包括软件工程问题和对应 Python 库的真实 GitHub 问题的解决方案,结果表明目前的模型在解决问题时仍存在困难,呼吁进一步提高模型在实际应用中的智能和自主能力。
Oct, 2023
介绍了一种名为 SWE-agent 的自主系统,它使用一种语言模型与计算机进行交互解决软件工程任务。通过自定义的 agent-computer interface (ACI) 界面,SWE-agent 能够增强代理程序创建和编辑代码文件、浏览整个代码库和执行程序的能力。在 SWE-bench 上,与检索增强生成 (retrieval-augmented generation, RAG) 技术达到的 3.8% 相比,SWE-agent 能够解决 12.5% 的问题。研究还探讨了 ACI 设计对代理程序行为和性能的影响,并提供了有效设计的建议。
May, 2024
提出了一种自动化的方法 AutoCodeRover,将 LLMs 与复杂的代码搜索能力相结合,从而实现对 Github 问题的自主解决,进而实现程序改进。
Apr, 2024
基于大型语言模型的 R2C2-Coder 方法增强和评估了真实世界的代码仓库级代码补全能力,其中 R2C2-Coder 包括 R2C2-Enhance 方法和 R2C2-Bench 基准测试。
Jun, 2024
在软件演化中,解决 GitHub 存储库中的新出现问题是一个复杂的挑战。为了克服这些挑战,我们提出了一种基于大型语言模型(LLMs)的多智能体框架 MAGIS,它由四种定制化的代理人组成,通过规划和编码过程中的各种代理人的协作来发挥 LLMs 解决 GitHub 问题的潜力。我们通过使用 SWE-bench 基准测试来比较 MAGIS 与流行的 LLMs 如 GPT-3.5、GPT-4 和 Claude-2,结果显示 MAGIS 可以解决 13.94% 的 GitHub 问题,明显优于基准测试结果。
Mar, 2024
使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力,并且在生成相关测试用例方面表现出众,尤其是在代码修复方面,生成的测试用例是提出代码修复的一个有效过滤器。
Jun, 2024
提出了一种基于预训练编程语言模型 CodeT5 的新型统一 “Detect-Localize-Repair” 框架 CodeT5-DLR,它包括三个目标,即 bug 检测、定位和程序修复,并在 Java 和 Python 的两个新收集的行级调试数据集上进行了评估。结果表明,该模型在 NLP 和软件工程领域的现有基线上显著优于其他机器学习方法。
Nov, 2022
该研究介绍一种名为 RepoBench 的新基准,旨在评估特定于存储库的代码自动完成系统,该基准包含三个相互关联的评估任务:RepoBench-R(检索),RepoBench-C(代码完成)和 RepoBench-P(管道),每个任务分别衡量系统从其他文件中检索最相关的代码片段的能力作为跨文件上下文,使用跨文件和文件内上下文预测代码的下一行以及处理需要检索和下一行预测组合的复杂任务。
Jun, 2023
我们开发了一种名为 RepoUnderstander 的新型自动软件工程(ASE)方法,通过指导代理程序全面了解整个代码库,将关键的整个代码库信息压缩成知识图,采用蒙特卡罗树搜索探索策略,通过分析和规划,使代理程序能够动态获取信息并生成补丁解决实际 GitHub 问题,实验证明了其优越性和有效性。
Jun, 2024
介绍了一种基于 SOCIO 技术图和图卷积神经网络的代码审查人员推荐新方法 CORAL,该方法可以找到传统推荐器遗漏的相关资格审查员,并对大型项目进行优化,而小型项目则建议采用传统方法。
Feb, 2022