ChatGPT 生成 R 程序代码的用户中心评估
ChatGPT 是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集,共计 131 个代码生成提示,ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1% 准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分 ChatGPT 和人类代码,准确率高达 88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。
Nov, 2023
通过评估 ChatGPT 3.5 和 4 版本在生成各种编程语言代码方面的能力,验证了这些 AI 模型用于生成科学程序的效力。通过要求 ChatGPT 生成三个不同的代码:简单的数值积分、共轭梯度求解器和并行一维模板热方程求解器来达到我们的目标。我们的分析重点是代码的编译、运行时性能和准确性。虽然 ChatGPT 的两个版本都成功创建了可以编译和运行的代码(在某种程度上需要帮助),但 AI 在使用某些语言时会更容易(可能是由于使用的训练数据集的规模)。甚至对于我们选择的这个简单示例来说,平行代码也很难由 AI 正确生成。
May, 2024
本文通过对 ChatGPT 在需求分析任务上的表现进行实证评估,探讨生成式大语言模型在自然语言处理领域对需求工程的影响,结果显示 ChatGPT 在多语言多类型需求文档检索上表现出令人惊叹的能力。
Apr, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力,并发现 ChatGPT 能够独立解决一部分编程问题,但在复杂任务上遇到困难,结果为编程教育中应用 AI 工具的效用问题提供了新的观点。
Dec, 2023
对 ChatGPT 在软件工程中的应用进行了研究,发现 ChatGPT 在代码的语法理解方面具有较高的能力,但在代码的语义理解方面,特别是动态语义方面存在困难,容易产生虚假输出。这表明在软件工程中使用 ChatGPT 时需要进一步探索验证其输出正确性的方法,以确保其可靠性。
May, 2023
我们通过实证分析了 ChatGPT 在无人辅助编程助手方面的潜力,并强调了其相对程序生成、程序修复、代码摘要方面的表现,并对其在常见编程问题上的表现进行了评估,这证明 ChatGPT 有效地处理典型的编程挑战,但我们也发现,综合的描述可能会限制 ChatGPT 的关注点并阻碍其利用其广泛的知识进行问题解决。
Apr, 2023
本文系统评估了 ChatGPT 在初级函数语言编程课程中的表现,证明其能够在该课程中获得 B- 的成绩,并排名为 314 名学生的第 155。作者认为 ChatGPT 对计算机科学教育的潜在益处值得探究。
Apr, 2023
本文旨在评估人工智能工具 ChatGPT 在计算机工程学科中的表现;研究发现它可以回答关于概念的问题,但由于它是一种文字工具,所以无法处理需要用到图表和手工实验的问题。
Mar, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023