大型语言模型生成程序代码的系统评估

Mar, 2024

大型语言模型生成程序代码的系统评估

A systematic evaluation of large language models for generating programming code

Wenpin Hou, Zhicheng Ji

TL;DRGPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Abstract

We systematically evaluated the performance of seven large language models in generating programming code using various prompt strategies,

large language models programming code prompt strategies coding contests software development

发现论文，激发创造

使用 GPT-4 进行程序练习的反馈生成

该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈，研究结果显示相比 GPT-3.5，GPT-4 Turbo 在输出质量上有显著的改进，可以更准确地识别学生程序输出中的错误，并能为学生提供结构化和一致的反馈。此研究还增加了我们对大型语言模型在电子评估系统、教学场景和指导学生使用基于 GPT-4 的应用中潜力和限制的理解。

Mar, 2024

OpenAi 的 GPT4 作为编码助手

本文研究了 GPT3.5 和 GPT4 作为编码助手的性能，测试结果表明 GPT4 具有卓越的性能，可以提高程序员的生产力并重组基于这些新工具的软件开发流程。

Sep, 2023

评估大型语言模型在编程教育中生成反馈的应用

该研究探讨了大型语言模型（特别是 GPT-4）在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用，用于对编程任务提供反馈，但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估，结果显示 GPT-4 生成的大部分反馈有效地解决了代码错误。然而，不正确的建议和虚构的问题导致进一步改进的需求。

Mar, 2024

基于算法问题的 GPT-4 评测：对提示策略的系统评估

GPT-4 在具有可控问题难度的三个算法任务中通过先进的提示技术展现了优越的准确性，证明了先进的大型语言模型在需要系统化泛化的挑战性任务中具备很强的基准性能。

Feb, 2024

巨型语言模型（GPT-4）的进步：通过高等教育编程课程的考核不再成为难题

该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果，这表明自然语言处理技术在编程教育类中有很大的潜力，并且给程序设计教育提出了新的问题。

Jun, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

推进 GenAI 辅助程序编写 ——GPT-4 和 GLM-4 的提示效率与代码质量比较研究

本研究旨在通过对 GPT-4 和 GLM-4 的比较分析，探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略，我们发现最简单和直接的提示策略可以产生最佳的代码生成结果。此外，添加类似于 CoT 的初步确认步骤将进一步提高成功率。结果显示，在普通用户中，虽然 GPT-4 略胜一筹，但差异微乎其微。在我们简化的评估模型中，与传统的编码规范相比，代码生成效率惊人地提高了 30 至 100 倍。我们的 GenAI 编码讲习班展示了本研究中开发的提示方法的效果和可访问性。我们观察到 GenAI 辅助编码将引发编程领域的一次范式转移，这需要开发人员承担围绕监督和指导 GenAI 的新角色，并更加专注于设定高层目标并积极参与创新。

Feb, 2024

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023