Nov, 2023

评估ChatGPT在自动代码生成中的优势和局限性

TL;DRChatGPT是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含5个类别的新颖数据集,共计131个代码生成提示,ChatGPT和人类程序员生成了262个代码样例。使用14个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了ChatGPT在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1%准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了ChatGPT对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分ChatGPT和人类代码,准确率高达88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了ChatGPT的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此https URL上找到。