RGD：基于多大语言模型的代理调试器通过改进和生成指导

Oct, 2024

RGD：基于多大语言模型的代理调试器通过改进和生成指导

RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance

Haolin Jin, Zechao Sun, Huaming Chen

TL;DR本研究解决了大型语言模型（LLMs）在复杂代码生成任务中的准确性问题，提出了一种名为RGD的多LLM代理调试框架。该框架通过分解代码生成任务，结合自我反思和反馈进行迭代代码改进，实验结果显示在多个数据集上均显著提升了代码生成性能，展示了其在增强LLMs自主生成和改进代码能力方面的潜力。

Abstract

Large Language Models (LLMs) have shown incredible potential in Code Generation tasks, and recent research in prompt engineering have enhanced LLMs' understanding of textual information. However, ensuring the acc

发现论文，激发创造

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

AgentCoder: 基于多智能体的代码生成与迭代测试优化

介绍了一种名为Multi-Agent Assistant Code Generation（AgentCoder）的新方法，它使用专门的程序员代理、测试设计师代理和测试执行代理来协同生成代码，解决了代码生成和测试用例生成之间的平衡问题，并在实验中表现出优于现有模型的性能。

Dec, 2023

LLM基于代码生成与软件开发流程的结合

介绍了LCG软件代码生成框架，该框架利用多个大型语言模型（LLM）代理模拟各种软件过程模型，通过协同努力不断优化自身以提高代码质量。通过四个代码生成基准的评估结果表明，LCGScrum模型在各项评估中表现优异，超过GPT平均15%。分析结果显示开发活动对生成的代码有明显影响，设计和代码审查能增强异常处理，而设计、测试和代码审查则能减轻代码缺陷。GPT3.5模型版本的变化对结果有显著影响，强调了采用软件过程模型增强LLM生成代码质量和一致性的重要性。

Mar, 2024

自组织代理：面向超大规模代码生成和优化的LLM多代理框架

最近大型语言模型(LLM)代理实现的自动代码生成取得了重要进展，但现有的单代理方法面对生成和改进大规模复杂代码库的限制，该论文提出了自组织多代理框架(SoA)，这是一种新的多代理框架，能够实现大规模代码的可扩展和高效生成优化。在SoA中，自组织代理独立操作以生成和修改代码组件，并无缝协作构建整体代码库，其关键特点是根据问题复杂度自动增加代理数量，从而实现动态可扩展性，使得代码量可以无限增加，而每个代理管理的代码量保持恒定。该论文在HumanEval基准上评估了SoA，并证明与单一代理系统相比，SoA中的每个代理处理的代码显著减少，但生成的整体代码量大幅增加。此外，SoA在Pass@1准确率方面超过了强大的单代理基准5%。

Apr, 2024

MapCoder: 多智能体编码生成竞争问题求解

使用多智能体提示的新方法进行代码生成任务，利用四个特定设计的语言模型代理模拟人类开发者在程序综合的全部周期中观察到的阶段，展示出优秀的代码生成能力并取得新的最先进结果。

May, 2024

训练LLMs以提升自我调试和解释代码能力

自调试是代码生成领域的关键，并且该研究旨在提出一个训练框架，显著提高了语言模型的自调试能力，通过生成一系列解释和改进轨迹，进行自动化数据收集和筛选，进行监督微调和强化学习，并通过对代码解释和改进质量的考虑，实现对四个基准测试的性能提升。研究还表明，通过该框架训练的语言模型能够持续改进代码，并生成更有用的代码解释，帮助开发人员更好地理解源代码中的错误。

May, 2024

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024

通过交互式代理基础的数据精炼提高大型语言模型的代码调试能力

本研究针对大型语言模型在代码调试方面的能力缺乏探索的问题，提出了DEBUGEVAL，一个全面评估调试能力的基准测试。通过提出MASTER框架，生成经过精炼的数据用于监督微调，从而显著提升调试能力，实验证明该方法有效改进了大型语言模型的调试性能。

Aug, 2024

通过多计划探索和反馈驱动的细化实现的对偶编程框架用于代码生成

本研究针对大型语言模型在复杂编程问题上的解决能力不足的问题，提出了PairCoder框架，该框架借鉴了对偶编程的实践，引入两个协作的LLM代理：Navigator和Driver。实验结果表明，PairCoder在各种代码生成基准测试中相比直接提示LLMs，有着12.00%-162.43%的显著准确性提升，展示了其潜在的影响力。

Sep, 2024

基于多LLM的代理调试器：精炼与生成指导

本研究解决了大型语言模型（LLMs）在复杂代码生成任务中的准确性问题。提出了一种新的LLM代理架构——精炼与生成指导调试（RGD），通过分步骤处理代码生成，提升了LLMs的自主生成与精炼代码的能力。实验结果表明，RGD在代码生成能力上实现了显著提升，为程序开发提供了更有效的自动调试工具。

Oct, 2024