大语言模型生成的代码有什么问题?一项广泛研究
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了LLM合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于LLMs生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括1208个编程问题的数据集RobustAPI,用于评估LLMs生成的代码的可靠性和鲁棒性,并发现甚至对于GPT-4而言,62%的生成代码存在API误用,这可能导致意想不到的后果。
Aug, 2023
这篇研究报告分析了使用三个主要大型语言模型(CodeGen、PanGu-Coder和Codex)生成的代码中的333个错误模式,并通过在线调查得到了34位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。
Mar, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL,通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究,发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。
Jun, 2024
通过新的RACE基准对18种代表性的大型语言模型进行了评估,发现目前这些模型在按需生成高质量代码方面还未满足软件开发的要求,其中代码的可读性是生成代码整体质量的重要指标,并且大多数模型对特定编码风格偏好。这些发现有助于研究人员更深入地理解当前大型语言模型的编码能力,并为模型改进指明未来方向。
Jul, 2024
本研究评估了大型语言模型(LLMs)生成代码的效率,并将其与人类编写的解决方案进行比较,填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度,发现LLM生成的代码在性能上与人类代码相当,且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解,并为未来优化奠定基础。
Jul, 2024
本研究解决了大型语言模型(LLMs)代码生成的可靠性问题,特别是识别和分析生成代码中的缺陷。通过对367个缺陷进行分类和分析,发现了功能和算法错误是主要问题。研究表明,通过实施结构化的提示工程技术,可以显著减少常见缺陷,提高代码生成的准确性和可靠性。
Aug, 2024
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024