大语言模型生成的代码有什么问题?一项广泛研究
最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于LLMs生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括1208个编程问题的数据集RobustAPI,用于评估LLMs生成的代码的可靠性和鲁棒性,并发现甚至对于GPT-4而言,62%的生成代码存在API误用,这可能导致意想不到的后果。
Aug, 2023
这篇研究报告分析了使用三个主要大型语言模型(CodeGen、PanGu-Coder和Codex)生成的代码中的333个错误模式,并通过在线调查得到了34位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。
Mar, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL,通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究,发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。
Jun, 2024
本研究评估了大型语言模型(LLMs)生成代码的效率,并将其与人类编写的解决方案进行比较,填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度,发现LLM生成的代码在性能上与人类代码相当,且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解,并为未来优化奠定基础。
Jul, 2024
本研究解决了大型语言模型(LLMs)代码生成的可靠性问题,特别是识别和分析生成代码中的缺陷。通过对367个缺陷进行分类和分析,发现了功能和算法错误是主要问题。研究表明,通过实施结构化的提示工程技术,可以显著减少常见缺陷,提高代码生成的准确性和可靠性。
Aug, 2024
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024
本研究解决了大型语言模型生成代码后,如何可靠评估其语义正确性的问题。提出的CodeJudge框架独创性地利用LLM进行无测试用例的代码评估,研究了不同的“慢思考”引导方法以获得深入可靠的评估。研究结果表明,CodeJudge在多数设置上表现优于现有方法,尤其在较小模型Llama-3-8B-Instruct上依然超越SOTA GPT-3.5评估方法,显示出其显著的潜在影响。
Oct, 2024
本研究针对大型语言模型生成的代码中存在的缺陷,填补了以往仅关注独立函数错误的研究空白,分析了在实际软件开发中上下文依赖带来的非语法错误。我们识别了七种非语法错误类型,并提出了六个导致这些错误的原因,评估结果表明,GPT-4结合ReAct提示技术在识别错误原因方面的F1分数可达0.65,这为提高大型语言模型生成代码的质量提供了宝贵的见解。
Nov, 2024