多行 AI 辅助代码撰写

Feb, 2024

Multi-line AI-assisted Code Authoring

Omer Dunay, Daniel Cheng, Adam Tait, Parth Thakkar, Peter C Rigby...

TL;DRCodeCompose 是一款由大型语言模型（LLM）驱动的人工智能辅助代码撰写工具，可以为数以万计的开发人员提供行内建议。本文介绍了我们如何将该产品从显示单行建议扩展到多行建议，并克服了提高开发者使用这些建议的可用性所面临的几个独特挑战。

Abstract

codecompose is an ai-assisted code authoring tool powered by large language models (LLMs) that provides inline suggestions to 10's of thousands of developers at Meta. In this paper, we present how we scaled the p

codecompose ai-assisted code authoring tool multi-line suggestions usability user experience

发现论文，激发创造

CodeCompose：AI 辅助代码编写的大规模工业部署

本文介绍了一种基于大型语言模型和 AI 技术的代码编写工具 CodeCompose，并讨论了它在工业规模部署中的挑战和测量数据。CodeCompose 不仅能够辅助编写代码，还能够提高代码质量和产生其他积极影响。

May, 2023

IntelliCode Compose：使用 Transformer 进行代码生成

本文介绍了 IntelliCode Compose—— 一种通用的多语言代码自动完成工具，它可以预测任意类型的代码令牌序列，生成最多整行语法正确的代码。它利用了基于 1.2 亿行 Python、C#、JavaScript 和 TypeScript 编程语言源代码训练的最先进的生成式变换模型，在 Visual Studio Code IDE 和 Azure Notebook 中实现了按编辑时间完成建议要求的客户端树形缓存、高效的并行实现的波束搜索解码器和计算图优化。我们的最佳模型为 Python 编程语言提供了 86.7％的平均编辑相似度和 1.82 的困惑度。

May, 2020

针对全行代码补全的上下文构建

我们描述了我们在 Transformer 模型的特征实现中，对上下文组成的方法，同时还分享了改善该功能的下一步计划，并强调了该领域中的几个研究方面的重要性。

Feb, 2024

全行代码自动补全：将 AI 引入桌面

本研究描述了一种在 JetBrains' IntelliJ 平台上构建的多标记代码补全功能，称为 Full Line Code Completion。该功能仅建议语法正确的代码，并在用户设备上完全本地工作，为用户提供更丰富的体验，同时快速、紧凑且安全。作者分享了一些满足开发限制的有用技术，并描述了离线和在线评估流程以帮助做出更好的决策。

May, 2024

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

Gmail 智能写作：实时辅助写作

本文描述了 Smart Compose 系统，它利用大规模神经语言模型和最先进的机器学习技术为 Gmail 用户提供实时的自动建议功能，解决了邮件撰写中的重复输入问题，并采用了特殊的基础设施以实现高吞吐量和实时推理。实验结果表明，所提出的系统具有良好的性能并在 Gmail 中投入使用。

May, 2019

优化大型语言模型对 OpenAPI 代码补全的应用

该研究评估了 GitHub Copilot 在 OpenAPI 完成度方面的性能，并提出了一组针对任务的特定优化，利用了 Meta 的开源模型 Code Llama。该研究还提出了一种语义感知的 OpenAPI 完成度基准方法，并通过一系列实验分析了各种提示工程和微调技术对 Code Llama 模型性能的影响。经过微调的 Code Llama 模型在参数数量比商业解决方案 Codex 模型的基础下少 25 倍的情况下，将正确性改进达到了 55.2% 的峰值。此外，该研究还提出了一种改进的代码插入训练技术，解决了模型在提示上下文大小小于训练时使用的大小时性能不佳的问题。

May, 2024

基于多任务学习的预训练语言模型 —— 代码补全

本文介绍了一种基于多任务学习的预训练语言模型，采用 Transformer 神经网络架构，通过混合目标函数进行预训练，可以更好地理解和生成代码；在实验中证明了该模型相比现有的方法更为有效，尤其在完成标识符的任务上效果显著。

Dec, 2020

CONLINE：带在线搜索和正确性测试的复杂代码生成与优化

CONLINE 框架通过结合计划的在线搜索和自动正确性测试来增强代码生成，提高复杂代码生成的质量，突显其在生成复杂代码中提高实用性和可靠性的潜力。

Mar, 2024

炼金术师编码者：通过对多源数据进行背景调整，协调和引发代码能力

AlchemistCoder 是一系列基于多源数据的 Code LLMs，采用 AlchemistPrompts 进行数据集和指令响应对的协调，同时将数据构建过程纳入 fine-tuning 数据，通过提升代码生成和泛化能力，显著超越其他同规模或更大规模模型，进一步推动代码智能的发展。

May, 2024