多模态学习编辑源代码
通过定量和定性的研究,本研究探究了神经机器翻译(NMT)模型学习开发人员在向量请求中实现的代码更改的能力,在上下文较小的范围内(即,小 / 中型方法对在请求之前 / 之后进行更改的情况下),它能够自动复制 36%的情况
Jan, 2019
本文综述了 NMT 在代码生成中的应用,包括自然语言描述、二进制或汇编语言、源代码部分表示和其他语言的源代码等方面的输入。并且列举了已经探索的多种不同的方法和模型架构、优化技术、数据集和评估方法,最后讨论了现有方法的局限性和未来研究方向。
May, 2023
本研究通过提出一种基于树形神经网络的方法,实现了从海量开源代码中自动学习提取代码改变模式,并提出了一种名为 CODIT 的代码改变建议引擎,在实验中表现良好,能够有效地学习和建议代码改变和 BUG 修复方法。
Sep, 2018
本文探讨采用无监督神经机器翻译生成源代码,如何应对编译和逻辑错误,通过实验发现置信度亮显和备选翻译等 UI 设计在增强软件工程师的使用体验方面起到了重要作用。
Apr, 2021
本研究开发了多种神经网络模型,利用合成数据测试模型的编辑模式学习能力,从原型生成下一步的编辑行为。文章提出了一种新颖的 “注意力” 和 “指针” 网络的组合模型能够最大化地提高性能和可伸缩性,应用结果初步证明了开发可以习得预测未来编辑的工具的可行性。
Apr, 2019
大型语言模型在软件工程领域中成功应用,特别是在代码生成方面。本文提出了一种新颖有效的模型编辑方法( extsc {MENT}),用于修补编程任务中的 LLMs。 extsc {MENT} 基于生成式 LLMs 的机制,在下一个标记预测中实现模型编辑,并进一步支持常见的编码任务。本研究提出了形式化的编辑过程和相关概念,并引入了评估其泛化能力的新指标。在 API-seq 推荐、行级代码生成和伪代码转换任务上,我们的方法优于最先进的方法,并展示了 extsc {MENT} 在软件工程中的应用。
Dec, 2023
本研究提出了一种基于序列到序列深度学习模型的自然语言到编程语言的建议系统,可以根据自然语言的意图建议源代码片段,并扩展源代码的自动补全功能。该系统通过上下文感知的神经模型直接生成源代码标记,而不是从源代码生成解析树 / 抽象意义表示再转换成源代码。此外,提出的架构还使用预训练策略和数据增强技术来提高性能,并且在 BLEU-4 指标上超过了神经语义解析器 TranX 的表现约 10.82%。该系统还可以用于生成源代码的自然语言文档,并提出了基于 RoBERTa 的掩码语言模型来扩展该系统用于代码补全。
Feb, 2024
通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集,我们评估了几个最先进的大型语言模型,并揭示了现有开源和闭源模型之间的显著差距。同时,我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。
Dec, 2023
通过挖掘 GitHub 上项目代码的变更历史记录,使用神经机器翻译技术进行修复漏洞的学习,设计并训练了一个 Encoder-Decoder 模型,可以在瞬间模仿各种不同的 AST 操作,并生成候选修复程序,可在实际环境中修复数以千计的独特故障方法,并预测出开发人员生成的固定补丁的 9-50%。
Dec, 2018