RGD:基于多大语言模型的代理调试器通过改进和生成指导
本文探讨了使用 Large Language Models 进行程序合成时,实现 Synthesize,Execute,Debug 方法的方法,包括替换或修复故障程序,以及不同基于模板和基于模型的提示生成技术,取得了比传统方法更好的表现。
Apr, 2023
介绍了一种名为Multi-Agent Assistant Code Generation(AgentCoder)的新方法,它使用专门的程序员代理、测试设计师代理和测试执行代理来协同生成代码,解决了代码生成和测试用例生成之间的平衡问题,并在实验中表现出优于现有模型的性能。
Dec, 2023
介绍了LCG软件代码生成框架,该框架利用多个大型语言模型(LLM)代理模拟各种软件过程模型,通过协同努力不断优化自身以提高代码质量。通过四个代码生成基准的评估结果表明,LCGScrum模型在各项评估中表现优异,超过GPT平均15%。分析结果显示开发活动对生成的代码有明显影响,设计和代码审查能增强异常处理,而设计、测试和代码审查则能减轻代码缺陷。GPT3.5模型版本的变化对结果有显著影响,强调了采用软件过程模型增强LLM生成代码质量和一致性的重要性。
Mar, 2024
最近大型语言模型(LLM)代理实现的自动代码生成取得了重要进展,但现有的单代理方法面对生成和改进大规模复杂代码库的限制,该论文提出了自组织多代理框架(SoA),这是一种新的多代理框架,能够实现大规模代码的可扩展和高效生成优化。在SoA中,自组织代理独立操作以生成和修改代码组件,并无缝协作构建整体代码库,其关键特点是根据问题复杂度自动增加代理数量,从而实现动态可扩展性,使得代码量可以无限增加,而每个代理管理的代码量保持恒定。该论文在HumanEval基准上评估了SoA,并证明与单一代理系统相比,SoA中的每个代理处理的代码显著减少,但生成的整体代码量大幅增加。此外,SoA在Pass@1准确率方面超过了强大的单代理基准5%。
Apr, 2024
使用多智能体提示的新方法进行代码生成任务,利用四个特定设计的语言模型代理模拟人类开发者在程序综合的全部周期中观察到的阶段,展示出优秀的代码生成能力并取得新的最先进结果。
May, 2024
自调试是代码生成领域的关键,并且该研究旨在提出一个训练框架,显著提高了语言模型的自调试能力,通过生成一系列解释和改进轨迹,进行自动化数据收集和筛选,进行监督微调和强化学习,并通过对代码解释和改进质量的考虑,实现对四个基准测试的性能提升。研究还表明,通过该框架训练的语言模型能够持续改进代码,并生成更有用的代码解释,帮助开发人员更好地理解源代码中的错误。
May, 2024
使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力,并且在生成相关测试用例方面表现出众,尤其是在代码修复方面,生成的测试用例是提出代码修复的一个有效过滤器。
Jun, 2024
本研究针对大型语言模型在代码调试方面的能力缺乏探索的问题,提出了DEBUGEVAL,一个全面评估调试能力的基准测试。通过提出MASTER框架,生成经过精炼的数据用于监督微调,从而显著提升调试能力,实验证明该方法有效改进了大型语言模型的调试性能。
Aug, 2024
本研究针对大型语言模型在复杂编程问题上的解决能力不足的问题,提出了PairCoder框架,该框架借鉴了对偶编程的实践,引入两个协作的LLM代理:Navigator和Driver。实验结果表明,PairCoder在各种代码生成基准测试中相比直接提示LLMs,有着12.00%-162.43%的显著准确性提升,展示了其潜在的影响力。
Sep, 2024
本研究解决了大型语言模型(LLMs)在复杂代码生成任务中的准确性问题。提出了一种新的LLM代理架构——精炼与生成指导调试(RGD),通过分步骤处理代码生成,提升了LLMs的自主生成与精炼代码的能力。实验结果表明,RGD在代码生成能力上实现了显著提升,为程序开发提供了更有效的自动调试工具。
Oct, 2024