Nov, 2023

评估 ChatGPT 在自动代码生成中的优势和局限性

TL;DRChatGPT 是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集,共计 131 个代码生成提示,ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1% 准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分 ChatGPT 和人类代码,准确率高达 88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。