测试在不同级别的提示特异性下进行的代码生成的LLMs
本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示,对比评估了5种Code LLM模型的性能,结果表明这种评测标准是更好的模型性能判别标准。同时,研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生,这些发现对于使用Code LLMs进行教学具有影响。
Jun, 2023
该研究介绍了一种技术,它允许大型语言模型在解决编程任务时利用用户提供的代码,并且提出了一种逐步生成模块化子函数的方法,以帮助模型在初始生成的代码不足时进行未来的代码生成尝试。
Nov, 2023
我们研究了大型语言模型在生成Python代码方面的优势和劣势,并提出了一种引导模型解决问题的思维链条提示,同时还提供了一个由60个不同难度级别的编程问题组成的数据集进行评估。
Apr, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响,并提出了一个自动化框架NLPerturbator来对不同类别的描述进行扰动,发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性,以及构建描述时的细致性。
Jun, 2024
本研究解决了大型语言模型(LLMs)代码生成的可靠性问题,特别是识别和分析生成代码中的缺陷。通过对367个缺陷进行分类和分析,发现了功能和算法错误是主要问题。研究表明,通过实施结构化的提示工程技术,可以显著减少常见缺陷,提高代码生成的准确性和可靠性。
Aug, 2024
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024
本研究探讨了大型语言模型(LLMs)作为代码执行器的潜力,首次系统性地分析了多个模型在代码执行中的可行性。研究提出了逐行处理代码片段的迭代指令提示(IIP)技术,有效提高了较弱模型的准确性,最高提升达18.96%。该研究为未来的自动编程和复杂任务的完成奠定了基础。
Oct, 2024
本研究针对大型语言模型(LLMs)在代码理解和生成方面的能力进行了深入探讨,填补了将 LLMs 作为代码执行器的研究空白。我们提出了一种迭代指令提示(IIP)技术,以逐行处理代码片段,显著提高了较弱模型的准确性,进而展示了 LLMs 在编程自动化和复杂任务完成中的潜在变革性影响。
Oct, 2024