大语言模型生成代码的研究
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了LLM合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成,研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用,并指出它们在编程社区中的使用有望得到进一步推广。
Jun, 2023
研究ChatGPT 3.5模型在编写代码方面的能力,评估其在10种编程语言和4个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了GPT-3.5、GPT-4、Bard、Llama2和Starchat等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了Starchat以外的所有LLMs一致优于原始文档,值得注意的是,闭源模型GPT-3.5、GPT-4和Bard在各个参数上相比开源/源代码可用的LLMs(包括LLama 2和StarChat)表现更好。就生成时间而言,GPT-4的持续时间最长,其次是Llama2、Bard,ChatGPT和Starchat的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
大型语言模型在代码生成方面展示了显著的熟练度,并通过许多先前的研究在各种开发场景中显示了它们的有希望的能力。然而,这些研究主要在研究环境中进行评估,这在了解LLMs在实际开发中如何有效地支持开发人员方面存在重大差距。通过对来自开发人员与ChatGPT的对话的数据集DevGPT进行实证分析,我们的实证发现表明,目前使用LLM生成的代码的实践通常仅限于展示高级概念或在文档中提供示例,而不是用于生产就绪的代码。这些发现表明,在LLMs成为现代软件开发的重要组成部分之前,还需开展大量未来工作来改进LLMs在代码生成方面的能力。
Feb, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
使用大型语言模型进行代码生成的能力仍具有一定限制,代码生成的结果通常较为复杂且存在错误,通过研究相关的问题和推导出的漏洞类型,提出了一个训练自由的迭代方法来减少错误并增加合格率。
Jul, 2024
本研究评估了大型语言模型(LLMs)生成代码的效率,并将其与人类编写的解决方案进行比较,填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度,发现LLM生成的代码在性能上与人类代码相当,且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解,并为未来优化奠定基础。
Jul, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024