神经代码补全模型对情况进行尺寸评估：通过动态模型推理实现更便宜和更快的补全

Jan, 2024

神经代码补全模型对情况进行尺寸评估：通过动态模型推理实现更便宜和更快的补全

When Neural Code Completion Models Size up the Situation: Attaining Cheaper and Faster Completion through Dynamic Model Inference

PDF

Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Li Li

TL;DR利用动态推理方法优化神经代码补全模型，节约计算资源，减少计算成本，并通过决策机制主动防止生成错误代码。

Abstract

Leveraging recent advancements in large language models, modern neural code completion models have demonstrated the capability to generate highly accurate code suggestions. However, their massive size poses challenges in terms of computational costs and →

neural code completion dynamic inference computational costs environmental impact decision-making mechanism

发现论文，激发创造

快速且高效的神经网络代码补全

本研究旨在解决深度学习模型内存消耗大的问题，通过模块化的神经框架探索多种技术，并设计一种新颖的基于静态分析和细粒度令牌编码相结合的神经重排序模型，其消耗内存仅为 6MB，计算单个补全所需仅 8ms，最高精度达到 90%。

Apr, 2020

基于 Transformer 的智能调用自动代码完成方法

我们开发了一个机器学习模型，可以根据代码上下文和可用的遥测数据准确预测何时调用代码补全工具，该模型显著优于基准模型并在维持低延迟的同时集成了一些额外的遥测数据。

May, 2024

神经代码补全模型是否使用了我的代码？一种成员推断方法

我们研究了当前神经代码完成模型的法律和道德问题，通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题，而 CodeGen 和 StarCoder 模型的数据成员资格很难检测，有待进一步改进。

Apr, 2024

现代 IDE 中的代码完成的序列模型设计

我们提出了一种结合静态分析和语言模型预测词汇分布的方法，以实现代码完成实时性、准确性及有效性，提高模型的适用性与可用性。

Apr, 2020

基于多任务学习的预训练语言模型 —— 代码补全

本文介绍了一种基于多任务学习的预训练语言模型，采用 Transformer 神经网络架构，通过混合目标函数进行预训练，可以更好地理解和生成代码；在实验中证明了该模型相比现有的方法更为有效，尤其在完成标识符的任务上效果显著。

Dec, 2020

代码补全的语言模型：实践评估

基于 Transformer 的语言模型在自动代码补全方面显示出巨大的潜力，但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。

Feb, 2024

BERT 模型在代码自动完成中的应用实证研究

通过对深度学习（DL）模型的大规模实证研究，本文探索了 RoBERTa 模型在支持代码完成不同粒度级别的能力，并从多个角度评估了其预测的准确性与语义等效性。结果表明，BERT 模型是代码完成的可行解决方案，能够实现高达 58% 的完美预测。

Mar, 2021

不要完成它！为高效可持续的神经代码完成系统防止无助益的代码完成

本研究旨在解决考虑计算资源和计算成本的神经代码补全系统的低效问题。我们通过提出一种早期拒绝机制以及一个基于 Transformer 的评估器来避免代码补全中的低效提示，显著减少了计算成本并提高了补全的准确性。

Sep, 2022

利用草图学习代码自动补全

本文介绍了一种基于 Transformer 的模型 Grammformer，用于根据编程语言语法生成具有 “空洞” 的代码完成。在 C# 和 Python 的代码完成方面通过 ROUGE 和新的度量标准 RegexAcc 的度量检验结果，结果显示 Grammformer 比传统生成模型生成更加准确的代码完成，且生成的草图较传统技术生成的草图更长。

Jun, 2021

通过上下文数据丰富源代码，用于代码完成模型的实证研究

本研究旨在探索是否通过使用上下文数据使代码易于理解会提高预训练代码语言模型完成代码补全任务的性能，并建议在训练、微调或选择此类模型时做出适当的设计选择，以改善自动补全的实用性和准确性。

Apr, 2023