AlphaCode 与竞技级代码生成

Feb, 2022

Competition-Level Code Generation with AlphaCode

Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser...

TL;DRAlphaCode 是一个针对竞争性编程问题的系统，通过三个关键组件（专业数据集、高效转换架构和大规模模型采样）实现针对较深层次的推理并在 Codeforces 上实现了良好和可靠的表现。

Abstract

programming is a powerful and ubiquitous problem-solving tool. Developing systems that can assist programmers or even generate programs independently could make programming more productive and accessible, yet so

programming ai innovation code generation competitive programming problems alphacode

发现论文，激发创造

使用 AlphaCodium 进行代码生成：从提示工程到流程工程

我们提出了一种名为 AlphaCodium 的基于测试、多阶段、面向代码的迭代流程，通过这一方法改进了语言模型在代码生成问题上的性能。在 CodeContests 数据集上进行的实验表明，AlphaCodium 流程在提高了 GPT-4 在代码生成任务上的准确率。

Jan, 2024

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

使用代码生成语言模型进行自编程人工智能

本文介绍了一种能够修改自身源代码的自编程人工智能系统，通过应用基于 AI 的代码生成，实现了对自身深度学习模型设计和学习动态的算法优化，证明了其能够成功地改进自身性能，并编程子模型来执行辅助任务。

Apr, 2022

使用人工智能编程是什么体验？

本文探讨了使用大型语言模型进行编程的相似之处和不同之处，认为 LLM-assisted 编程应该被视为一种具有自己独特属性和挑战的新编程方式，并讨论了在将大型语言模型应用于非专业用户编程时可能出现的问题和研究挑战。

Aug, 2022

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022

具备编译器反馈的可编译神经代码生成

本文提出了一种名为 COMPCODER 的三阶段编译反馈机制，采用编译器反馈来生成可编译的代码，实验结果显示该方法的成功编译率从 44.18％提升至 89.18％。

Mar, 2022

AI 辅助编程的大代码的自然语言生成与理解：综述

该研究论文综述了自然语言处理技术的利用，重点关注使用大型代码训练的基于 Transformer 的大型语言模型在 AI 辅助编程任务领域中的应用。这些模型在包括代码生成、代码补全、代码翻译、代码概述、缺陷检测和克隆检测等 AI 辅助编程应用中扮演着关键角色，而其中值得注意的例子包括由 OpenAI 的 Codex 和 DeepMind AlphaCode 提供支持的 GitHub Copilot。本文概述了主要的大型语言模型及其在与 AI 辅助编程相关的下游任务中的应用，并探讨了在这些应用中结合 NLP 技术和软件自然性面临的挑战和机遇，同时讨论了将 AI 辅助编程能力拓展到苹果的 Xcode 移动软件开发环境中的问题和机会，以使开发人员能够获得更先进的编码辅助，并使软件开发流程更加高效。

Jul, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023

自我编辑：面向代码生成的故障感知代码编辑器

利用执行结果修正生成的代码，我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型（LLM）在竞争性编程任务方面的代码质量，对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估，相比于直接从 LLMs 生成的代码，我们的方法在 APP-dev 上的 pass@1 平均值提高了 89％，在 APPS-test 上提高了 31％，在 HumanEval 上提高了 48％，比其他后处理方法表现更优。

May, 2023

使用 APPS 评估编码挑战能力

通过引入 APPs 基准，对编程语言生成进展进行了评估，并发现当前机器学习模型已经开始学会编码，然而在生成 Python 代码时仍存在语法错误

May, 2021