- MM面向可编译性约束的代码生成的基于能量的模型
本研究探讨神经语言模型训练源代码的可行性,将编译能力作为约束条件,使用基于能量的模型生成编译代码,提高生成样本的编译能力。
- AAAI通过将抽象语法树建模为图来完成代码补全
本文提出一种名为 CCAG 的新的代码完成方法,它将部分 AST 的平坦序列建模为 AST 图,使用 AST 图注意力块捕捉表示学习中的不同依赖关系,并通过多任务学习优化代码完成的子任务,无需调整任务权重即可自动实现任务平衡,实验结果表明 - BERT 模型在代码自动完成中的应用实证研究
通过对深度学习(DL)模型的大规模实证研究,本文探索了 RoBERTa 模型在支持代码完成不同粒度级别的能力,并从多个角度评估了其预测的准确性与语义等效性。结果表明,BERT 模型是代码完成的可行解决方案,能够实现高达 58% 的完美预测。
- 基于多任务学习的预训练语言模型 —— 代码补全
本文介绍了一种基于多任务学习的预训练语言模型,采用 Transformer 神经网络架构,通过混合目标函数进行预训练,可以更好地理解和生成代码;在实验中证明了该模型相比现有的方法更为有效,尤其在完成标识符的任务上效果显著。
- 从真实世界数据集中学习自动完成
通过在真实的代码完成实例上训练模型,我们研究了代码完成的预测性能,并发现这些模型比在源代码和工作版本快照上训练的模型分别提高了 12.8% 和 13.8% 的准确性,这与程序员实际自动完成使用率增加 6.2% 相对应,证明了真实的代码完成示 - 基于 Transformer 的源代码实证研究
本文研究了如何使用 Transformers 提取和利用源代码中的句法信息,完成代码自动补全、函数命名和 bug 修复等任务,实现了更好的模型性能。
- IntelliCode Compose:使用 Transformer 进行代码生成
本文介绍了 IntelliCode Compose—— 一种通用的多语言代码自动完成工具,它可以预测任意类型的代码令牌序列,生成最多整行语法正确的代码。它利用了基于 1.2 亿行 Python、C#、JavaScript 和 TypeScr - 快速且高效的神经网络代码补全
本研究旨在解决深度学习模型内存消耗大的问题,通过模块化的神经框架探索多种技术,并设计一种新颖的基于静态分析和细粒度令牌编码相结合的神经重排序模型,其消耗内存仅为 6MB,计算单个补全所需仅 8ms,最高精度达到 90%。
- 使用神经注意力和字节对编码完成代码
本文旨在利用实现自 Li 等人的神经网络进行代码自动补全,我们将该神经网络应用了介于字符和单词编码之间的字节对编码(BPE)对源代码文件进行处理,而无需先转换为抽象语法树(AST)。我们实现了两个模型:一个注意力增强的 LSTM 模型和一个 - 现代 IDE 中的代码完成的序列模型设计
我们提出了一种结合静态分析和语言模型预测词汇分布的方法,以实现代码完成实时性、准确性及有效性,提高模型的适用性与可用性。
- 自我关注神经架构,利用多任务学习实现代码自动完成
本文提出了自注意力神经体系结构,采用多任务学习方式,以解决代码补全中的结构性保留和长期依赖问题,并与最先进的方法进行了比较。
- ICML使用基于图结构的缓存实现源代码的开放式词汇学习
该文研究如何通过引入图结构缓存来解决程序源代码中可能遇到的新单词识别和定位的问题,并结合最新的基于图神经网络模型的方法,提高了模型在代码补全和变量命名任务上的性能。
- Python 中用于更智能的 API 推荐的集体智能
本研究介绍了一个智能代码补全系统 PyReco,它使用来自公共代码库的 API 用法来区分推荐结果的相关性,以取代传统字母顺序,并使用最近邻分类器来识别最佳匹配用法,以提供相关工作环境的建议。该系统在十倍交叉验证技术下的定量测试中表现优于按