神经代码补全模型对情况进行尺寸评估:通过动态模型推理实现更便宜和更快的补全
本研究旨在解决深度学习模型内存消耗大的问题,通过模块化的神经框架探索多种技术,并设计一种新颖的基于静态分析和细粒度令牌编码相结合的神经重排序模型,其消耗内存仅为 6MB,计算单个补全所需仅 8ms,最高精度达到 90%。
Apr, 2020
我们开发了一个机器学习模型,可以根据代码上下文和可用的遥测数据准确预测何时调用代码补全工具,该模型显著优于基准模型并在维持低延迟的同时集成了一些额外的遥测数据。
May, 2024
我们研究了当前神经代码完成模型的法律和道德问题,通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题,而 CodeGen 和 StarCoder 模型的数据成员资格很难检测,有待进一步改进。
Apr, 2024
本文介绍了一种基于多任务学习的预训练语言模型,采用 Transformer 神经网络架构,通过混合目标函数进行预训练,可以更好地理解和生成代码;在实验中证明了该模型相比现有的方法更为有效,尤其在完成标识符的任务上效果显著。
Dec, 2020
基于 Transformer 的语言模型在自动代码补全方面显示出巨大的潜力,但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。
Feb, 2024
通过对深度学习(DL)模型的大规模实证研究,本文探索了 RoBERTa 模型在支持代码完成不同粒度级别的能力,并从多个角度评估了其预测的准确性与语义等效性。结果表明,BERT 模型是代码完成的可行解决方案,能够实现高达 58% 的完美预测。
Mar, 2021
本研究旨在解决考虑计算资源和计算成本的神经代码补全系统的低效问题。我们通过提出一种早期拒绝机制以及一个基于 Transformer 的评估器来避免代码补全中的低效提示,显著减少了计算成本并提高了补全的准确性。
Sep, 2022
本文介绍了一种基于 Transformer 的模型 Grammformer,用于根据编程语言语法生成具有 “空洞” 的代码完成。在 C# 和 Python 的代码完成方面通过 ROUGE 和新的度量标准 RegexAcc 的度量检验结果,结果显示 Grammformer 比传统生成模型生成更加准确的代码完成,且生成的草图较传统技术生成的草图更长。
Jun, 2021
本研究旨在探索是否通过使用上下文数据使代码易于理解会提高预训练代码语言模型完成代码补全任务的性能,并建议在训练、微调或选择此类模型时做出适当的设计选择,以改善自动补全的实用性和准确性。
Apr, 2023