CodeCompose：AI 辅助代码编写的大规模工业部署

May, 2023

CodeCompose：AI 辅助代码编写的大规模工业部署

CodeCompose: A Large-Scale Industrial Deployment of AI-assisted Code Authoring

Vijayaraghavan Murali, Chandra Maddila, Imad Ahmad, Michael Bolin, Daniel Cheng...

TL;DR本文介绍了一种基于大型语言模型和 AI 技术的代码编写工具 CodeCompose，并讨论了它在工业规模部署中的挑战和测量数据。CodeCompose 不仅能够辅助编写代码，还能够提高代码质量和产生其他积极影响。

Abstract

The rise of large language models (LLMs) has unlocked various applications of this technology in software development. In particular, generative LLMs have been shown to effectively power AI-based code authoring tools that can suggest entire statements or blocks of code during code auth

large language models ai-assisted code authoring codecompose generative capabilities industrial scaling

发现论文，激发创造

多行 AI 辅助代码撰写

CodeCompose 是一款由大型语言模型（LLM）驱动的人工智能辅助代码撰写工具，可以为数以万计的开发人员提供行内建议。本文介绍了我们如何将该产品从显示单行建议扩展到多行建议，并克服了提高开发者使用这些建议的可用性所面临的几个独特挑战。

Feb, 2024

IntelliCode Compose：使用 Transformer 进行代码生成

本文介绍了 IntelliCode Compose—— 一种通用的多语言代码自动完成工具，它可以预测任意类型的代码令牌序列，生成最多整行语法正确的代码。它利用了基于 1.2 亿行 Python、C#、JavaScript 和 TypeScript 编程语言源代码训练的最先进的生成式变换模型，在 Visual Studio Code IDE 和 Azure Notebook 中实现了按编辑时间完成建议要求的客户端树形缓存、高效的并行实现的波束搜索解码器和计算图优化。我们的最佳模型为 Python 编程语言提供了 86.7％的平均编辑相似度和 1.82 的困惑度。

May, 2020

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

AI 辅助编程的大代码的自然语言生成与理解：综述

该研究论文综述了自然语言处理技术的利用，重点关注使用大型代码训练的基于 Transformer 的大型语言模型在 AI 辅助编程任务领域中的应用。这些模型在包括代码生成、代码补全、代码翻译、代码概述、缺陷检测和克隆检测等 AI 辅助编程应用中扮演着关键角色，而其中值得注意的例子包括由 OpenAI 的 Codex 和 DeepMind AlphaCode 提供支持的 GitHub Copilot。本文概述了主要的大型语言模型及其在与 AI 辅助编程相关的下游任务中的应用，并探讨了在这些应用中结合 NLP 技术和软件自然性面临的挑战和机遇，同时讨论了将 AI 辅助编程能力拓展到苹果的 Xcode 移动软件开发环境中的问题和机会，以使开发人员能够获得更先进的编码辅助，并使软件开发流程更加高效。

Jul, 2023

使用人工智能编程是什么体验？

本文探讨了使用大型语言模型进行编程的相似之处和不同之处，认为 LLM-assisted 编程应该被视为一种具有自己独特属性和挑战的新编程方式，并讨论了在将大型语言模型应用于非专业用户编程时可能出现的问题和研究挑战。

Aug, 2022

Xcode 的协助助手：利用云端大型语言模型提供 AI 辅助编程

这篇论文介绍了一种名为 Copilot for Xcode 的 AI 辅助编程工具，通过将云端的大型语言模型与苹果的本地开发环境 Xcode 无缝集成，提高了软件开发者的生产力，释放了创造力，支持苹果软件生态系统中的软件开发。它利用先进的自然语言处理技术，有效处理代码库中的源代码令牌和模式，实现代码生成、自动完成、文档编制和错误检测等功能。软件开发者还可以通过 Copilot for Xcode 的聊天界面查询和进行 “小型” 程序组合的决策，其中一些决策可以同时进行。最后，我们通过简单的案例研究展示了在 Xcode 中利用 NLP 来促进流行的大型语言模型服务如 OpenAI ChatGPT 进行程序组合和设计的有效性。

Jul, 2023

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022

CodeNet：用于学习多样编码任务的大规模 AI 代码数据集

本文介绍了一个名为 CodeNet 的大规模数据集，旨在教授 AI 编码技能以提高软件开发效率并现代化旧有应用程序，该数据集包含超过 14 百万个代码样例和约 55 种不同编程语言中的 5 亿行代码。同时，CodeNet 还为各种关键编码任务提供了丰富的高质量注释，包括各类代码相似性和分类、各种编程语言之间的代码翻译以及代码性能（运行时间和内存）改进技术等，为 AI 和软件工程交叉领域提供了前所未有的研究机会。

May, 2021

CompCodeVet：一种基于编译器引导的编码数据集验证和增强方法

通过使用编译器作为教师，我们提出了 CompCodeVet，一种由编译器引导的 CoT 方法，用于从非可编译代码生成可编译代码。在两个开源代码数据集上对 CompCodeVet 的评估结果表明，CompCodeVet 具有改善 LLMs 训练数据集质量的能力。

Nov, 2023

i-Code Studio：一个可配置的、可组合的综合人工智能框架

文章提出了一个配置和可组合的框架 i-Code Studio，用于处理 AGI 中的多模态任务，并且成功地在影片文本检索、语音翻译、视觉问答等多个任务中实现了出色的结果。

May, 2023