开源能超越ChatGPT吗?——文本到代码生成的大型语言模型比较研究
我们通过实证分析了ChatGPT在无人辅助编程助手方面的潜力,并强调了其相对程序生成、程序修复、代码摘要方面的表现,并对其在常见编程问题上的表现进行了评估,这证明ChatGPT有效地处理典型的编程挑战,但我们也发现,综合的描述可能会限制ChatGPT的关注点并阻碍其利用其广泛的知识进行问题解决。
Apr, 2023
本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成,研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用,并指出它们在编程社区中的使用有望得到进一步推广。
Jun, 2023
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异,而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
本文对ChatGPT的编码能力进行全面评估,重点考察了其在Python编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
研究ChatGPT 3.5模型在编写代码方面的能力,评估其在10种编程语言和4个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
ChatGPT是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含5个类别的新颖数据集,共计131个代码生成提示,ChatGPT和人类程序员生成了262个代码样例。使用14个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了ChatGPT在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1%准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了ChatGPT对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分ChatGPT和人类代码,准确率高达88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了ChatGPT的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此https URL上找到。
Nov, 2023
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了GPT-3.5、GPT-4、Bard、Llama2和Starchat等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了Starchat以外的所有LLMs一致优于原始文档,值得注意的是,闭源模型GPT-3.5、GPT-4和Bard在各个参数上相比开源/源代码可用的LLMs(包括LLama 2和StarChat)表现更好。就生成时间而言,GPT-4的持续时间最长,其次是Llama2、Bard,ChatGPT和Starchat的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
大型语言模型在代码生成方面展示了显著的熟练度,并通过许多先前的研究在各种开发场景中显示了它们的有希望的能力。然而,这些研究主要在研究环境中进行评估,这在了解LLMs在实际开发中如何有效地支持开发人员方面存在重大差距。通过对来自开发人员与ChatGPT的对话的数据集DevGPT进行实证分析,我们的实证发现表明,目前使用LLM生成的代码的实践通常仅限于展示高级概念或在文档中提供示例,而不是用于生产就绪的代码。这些发现表明,在LLMs成为现代软件开发的重要组成部分之前,还需开展大量未来工作来改进LLMs在代码生成方面的能力。
Feb, 2024
本研究评估了大型语言模型(LLMs)生成代码的效率,并将其与人类编写的解决方案进行比较,填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度,发现LLM生成的代码在性能上与人类代码相当,且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解,并为未来优化奠定基础。
Jul, 2024
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024