对基于代码训练的大型语言模型的评估

Jul, 2021

对基于代码训练的大型语言模型的评估

Evaluating Large Language Models Trained on Code

Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto...

TL;DR本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Abstract

We introduce codex, a GPT language model fine-tuned on publicly available code from github, and study its python code-writing capabilities

codex github python program synthesis model limitations

发现论文，激发创造

代码的大型语言模型的系统评估

通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

最新 GPT 模型的人工评估 -- 2024

使用 GPT-4 模型改进程序综合，通过与 Huamn Eval 连接的代码库展示了在 Python 代码生成上与先前最先进的解决方案相比具有竞争力的性能，同时促进了多步骤范式综合。

Feb, 2024

探究大型语言模型在生成单元测试中的效果

该研究探讨了三种代码生成模型（CodeGen、Codex 和 GPT-3.5）在单元测试生成中的效果，发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率，但在 EvoSuite SF110 基准测试中，没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。

Apr, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

大型语言模型生成程序代码的系统评估

GPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Mar, 2024

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

使用 OpenAI 的 Codex 进行自动程序修复：评估 QuixBugs

本文研究了 OpenAI 的 Codex 是否能够定位和修复软件中的错误，发现 Codex 的泛用性使其非常有效，而且在修复 Python 中的错误方面具有一定的优势。

Nov, 2021

利用训练于代码上的语言模型进行少样本语义解析

本文研究使用具备上下文的例句，将语义解析问题转化为规范语句的近义词问题，旨在改善大型语言模型在少量训练数据下的性能，并探究在自然语言映射为代码的语义解析任务中，使用预训练模型 OpenAI Codex 能否表现更好。实验发现，相比等效的 GPT-3 模型，Codex 在这种任务中表现更佳，尤其是在像 Overnight 和 SMCalFlow 这样的数据集中。

Dec, 2021

揭示大型语言模型在生成语义和跨语言克隆方面的潜力

使用 GPT-3 模型进行代码的语义和跨语言克隆生成，研究结果表明在软件开发领域使用先进语言模型存在潜在应用和挑战。

Sep, 2023

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022