针对神经代码智能的预训练语言模型综述

Dec, 2022

针对神经代码智能的预训练语言模型综述

A Survey on Pretrained Language Models for Neural Code Intelligence

Yichen Xu, Yanqiao Zhu

TL;DR介绍了 “神经代码智能”（NCI）领域的基本情况，包括预训练技术、任务、数据集和模型结构；探讨了如何使用深度学习技术提高软件工程效率、减少人为错误，并为领域内未来研究提供启示。

Abstract

As the complexity of modern software continues to escalate, software engineering has become an increasingly daunting and error-prone endeavor. In recent years, the field of neural code intelligence (NCI) has emerged as a promising solution, leveraging the power of →

neural code intelligence pretrained language models software engineering deep learning techniques programming efficiency

发现论文，激发创造

神经编码智能综述：范式、进展与未来

神经编码智能 - 利用深度学习理解、生成和优化代码 - 在整个社会中具有巨大的潜力。这篇调查综述了代码智能领域的技术进展，并系统地回顾了过去几年来研究社区对这一领域的关注。

Mar, 2024

代码智能的深度学习：调查、基准和工具包

本文综述了深度学习在编码智能方面的应用，包括代码表示学习、深度学习技术和应用任务，并提供了一个适用于基于深度学习的编码智能模型快速原型设计的开源工具包。同时，公开发布了源代码和数据资源，以促进现有和未来编码智能模型的评估和比较，并指出了几个具有挑战性和有前景的研究方向。

Dec, 2023

源代码人工智能调查：对话系统视角

本论文综述了过去 35 年中在自然语言处理 (NLP) 中应用的主要深度学习方法和源代码的人工智能 (AI) 应用，包括代码智能 (CI) 和编程语言处理 (PLP)，以及其在软件工程和教育中的对话助手的应用。还提出了在 AI 与对话助手和 CI 的交叉点上进行研究的机会，并提供了未来的研究方向。

Feb, 2022

深度学习与软件工程：源代码预训练模型调查

介绍了深度学习在软件工程中的应用，着重讨论了源代码的预训练模型，并展望了未来的研究方向。

May, 2022

面向对话 AI 的预训练语言模型简要调查 ——NLP 的新时代

本文概述了预训练语言模型在对话系统中的应用，目的是讨论这些模型是否能克服对话系统所面临的挑战，以及如何利用它们的架构来克服这些挑战，并探讨了对话系统领域的开放性挑战。

Apr, 2021

通过程序简化理解神经代码智能

本文提出了一种简单的，与模型无关的方法 ——SIVAND，通过简化技术减小 CI 模型输入程序的大小，以识别 CI 系统中模型的关键输入特征，显示出这种方法产生的输出非常小，并广泛适用于许多模型体系结构和问题领域。

Jun, 2021

代码预训练提升语言模型的实体跟踪能力

最近的研究提供了间接证据，表明在代码上预训练语言模型可以提高模型在自然语言中跟踪语篇实体状态变化的能力。本研究通过比较基模型和在其基础上用额外代码数据进行训练的模型在实体跟踪性能上的差异，系统地测试了这一论点。此外，我们还扩展了分析，考察了数学训练和对齐调优这两种高度结构化的数据类型对模型可用性的影响。我们发现，额外训练大量代码的模型明显优于基模型，而在不同的模型类型中，额外的数学训练和对齐调优并没有一致的好处。

May, 2024

探测源代码的预训练模型

本研究探讨了预训练模型在代码处理中的广泛应用及其对识别语法结构、正确性、标识符、数据流和命名空间等方面的影响，并测试了使用给定目标进行预训练、模型大小变化以及微调的影响。

Feb, 2022

代码语言模型综述

系统综述了代码处理与语言模型的最新进展，包括 50 + 种模型，30 + 项评估任务和 500 多个相关研究。分析了通用语言模型（如 GPT 系列）和专门针对代码进行预训练的模型之间的关系和区别，并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用，并确定了该领域的主要挑战和潜在未来方向。

Nov, 2023

当神经模型遇到 NL2Code: 一项调查

本文为了促进自然语言处理领域，特别是 NL2Code 的发展，提出了一个基于神经网络模型的综合框架以解决该任务，并对现有研究进行了深入分析，总结了当前的挑战与未来发展方向。

Dec, 2022