大型语言模型的编程技能评估

May, 2024

Evaluation of the Programming Skills of Large Language Models

Luc Bryan Heitz, Joun Chamas, Christopher Scherb

TL;DR通过比较OpenAI的ChatGPT和Google的Gemini AI在其免费版本中生成的编程代码的质量，以一个真实世界的例子和系统的数据集为支撑，本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力，这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外，编程代码的复杂性常常升级到需要验证的难度，强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性，这对软件开发领域和其他领域具有重要意义。

Abstract

The advent of large language models (LLM) has revolutionized the efficiency and speed with which tasks are completed, marking a significant leap in productivity through technological innovation. As these chatbots tackle increasingly complex tasks, the challenge of assessing the quality

发现论文，激发创造

ChatGPT: 最终的编程助手吗？—— 它有多远？

我们通过实证分析了ChatGPT在无人辅助编程助手方面的潜力，并强调了其相对程序生成、程序修复、代码摘要方面的表现，并对其在常见编程问题上的表现进行了评估，这证明ChatGPT有效地处理典型的编程挑战，但我们也发现，综合的描述可能会限制ChatGPT的关注点并阻碍其利用其广泛的知识进行问题解决。

Apr, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异，而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

使用ChatGPT 3.5进行代码生成的十种编程语言的比较研究

研究ChatGPT 3.5模型在编写代码方面的能力，评估其在10种编程语言和4个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

探索大型语言模型生成形成性编程反馈的潜力

探索大型语言模型在计算机教育和学习中的潜力，通过分析其对带有程序代码的输入生成的反馈进行研究，以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明，大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能，但教育者应提供指导，因为其提供的反馈可能对初学者包含误导性信息。

Aug, 2023

评估ChatGPT在自动代码生成中的优势和局限性

ChatGPT是一种显著的大型语言模型，通过与人类程序员进行比较，本文提出了对其代码生成能力的综合评估。通过构建一个包含5个类别的新颖数据集，共计131个代码生成提示，ChatGPT和人类程序员生成了262个代码样例。使用14个已建立的代码质量度量方法进行详细的手动评估，重点评估了正确性、可理解性和安全性。关键发现揭示了ChatGPT在制作简洁高效、具有高级结构的代码方面的优势，并展示了在数据分析任务（93.1%准确度）中的强项，但在视觉图形方面存在局限性。与人类代码的比较分析凸显了ChatGPT对模块化设计和优秀的错误处理的倾向。此外，机器学习模型可以有效地区分ChatGPT和人类代码，准确率高达88%，表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了ChatGPT的代码生成能力和局限性，为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此https URL上找到。

Nov, 2023

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

大型语言模型生成代码在Leetcode上的性能研究

本研究评估了大型语言模型（LLMs）生成代码的效率，并将其与人类编写的解决方案进行比较，填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度，发现LLM生成的代码在性能上与人类代码相当，且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解，并为未来优化奠定基础。

Jul, 2024

大语言模型生成代码的研究

本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验，提出了一种可重复和可比的评估方法，最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。

Aug, 2024

开源能超越ChatGPT吗？——文本到代码生成的大型语言模型比较研究

本研究探讨了大型语言模型在文本到代码生成中的表现，特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现，ChatGPT在处理编程挑战方面远胜于其他模型，包括专门针对代码生成的Code Llama，展现出明显的性能优势。

Sep, 2024

人工智能编程：对程序员的ChatGPT、Gemini、AlphaCode和GitHub Copilot的评估

本研究针对现代软件开发中人工智能模型的关键作用，深入评估了包括ChatGPT、Gemini、AlphaCode和GitHub Copilot在内的领先编程助手。研究指出这些模型在自然语言处理和代码生成方面的优势与不足，并强调需要进一步改进以增强其可靠性与准确性，同时呼吁在AI发展的过程中考虑伦理和责任问题。

Nov, 2024