AI 辅助编码：GPT-4 实验

Apr, 2023

AI-assisted coding: Experiments with GPT-4

Russell A Poldrack, Thomas Lu, Gašper Beguš

TL;DR本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Abstract

artificial intelligence (AI) tools based on large language models have acheived human-level performance on some computer programming tasks. We report several experiments using →

artificial intelligence large language models code generation gpt-4 human validation

发现论文，激发创造

OpenAi 的 GPT4 作为编码助手

本文研究了 GPT3.5 和 GPT4 作为编码助手的性能，测试结果表明 GPT4 具有卓越的性能，可以提高程序员的生产力并重组基于这些新工具的软件开发流程。

Sep, 2023

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

使用生成式人工智能实时增强编程错误消息

应用生成式人工智能技术改善编程问题、错误信息及自动化评估工具的可用性。

Feb, 2024

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023

大型语言模型生成程序代码的系统评估

GPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Mar, 2024

AI 增强的编程练习自动修正：GPT-3.5 的有效性如何？

本文探讨了人工智能在提供个性化代码改正和生成反馈方面的潜力，根据两个真实作业的学生提交进行了调查，结果显示 73% 的提交正确识别，并且在这些情况中，GPT-3.5 还成功生成了有效且高质量的反馈。

Oct, 2023

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

推进 GenAI 辅助程序编写 ——GPT-4 和 GLM-4 的提示效率与代码质量比较研究

本研究旨在通过对 GPT-4 和 GLM-4 的比较分析，探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略，我们发现最简单和直接的提示策略可以产生最佳的代码生成结果。此外，添加类似于 CoT 的初步确认步骤将进一步提高成功率。结果显示，在普通用户中，虽然 GPT-4 略胜一筹，但差异微乎其微。在我们简化的评估模型中，与传统的编码规范相比，代码生成效率惊人地提高了 30 至 100 倍。我们的 GenAI 编码讲习班展示了本研究中开发的提示方法的效果和可访问性。我们观察到 GenAI 辅助编码将引发编程领域的一次范式转移，这需要开发人员承担围绕监督和指导 GenAI 的新角色，并更加专注于设定高层目标并积极参与创新。

Feb, 2024

一种基于 GPT 的编程语言学习的代码审查系统

通过使用 GPT-4 生成代码评审，提供学习者友好的代码评审并减少 AI 辅助作弊的风险，这项研究旨在应对对编程语言教育的不断增长的需求和日益庞大的班级规模对即时且个性化反馈的迫切需求。

Jun, 2024

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023