通过语言模型理解生成代码中的缺陷
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异,而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于LLMs生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括1208个编程问题的数据集RobustAPI,用于评估LLMs生成的代码的可靠性和鲁棒性,并发现甚至对于GPT-4而言,62%的生成代码存在API误用,这可能导致意想不到的后果。
Aug, 2023
这篇研究报告分析了使用三个主要大型语言模型(CodeGen、PanGu-Coder和Codex)生成的代码中的333个错误模式,并通过在线调查得到了34位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。
Mar, 2024
评估大型语言模型在代码生成方面的效果时,需要使用健全的基准测试,而不严谨的评估基准会提供虚假的性能表现。本研究分析了9个代码生成基准中的3,566个提示,以确定其中的质量问题,并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于Python和编码练习,且缺乏上下文依赖关系,同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高Python代码生成的性能,但对Java代码生成的改进不明显。此外,还发现GPT-3.5-Turbo和CodeGen-2.5模型可能存在数据污染问题。
Apr, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
使用大型语言模型进行代码生成的能力仍具有一定限制,代码生成的结果通常较为复杂且存在错误,通过研究相关的问题和推导出的漏洞类型,提出了一个训练自由的迭代方法来减少错误并增加合格率。
Jul, 2024
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024