基于 Transformer 的源代码实证研究

Oct, 2020

Empirical Study of Transformers for Source Code

Nadezhda Chirkova, Sergey Troshin

TL;DR本文研究了如何使用 Transformers 提取和利用源代码中的句法信息，完成代码自动补全、函数命名和 bug 修复等任务，实现了更好的模型性能。

Abstract

Initially developed for natural language processing (NLP), transformers are now widely used for source code processing, due to the format similarity between source code and text. In contrast to natural language,

transformers source code processing syntactic information code completion bug fixing

发现论文，激发创造

用于机器翻译和自然语言理解的语法注入 Transformer 和 BERT 模型

本论文研究了通过将句法信息与深度学习模型相结合，提高自然语言处理任务的性能表现，对多特征的语法 - Transformer 进行了测试，发现在完整数据集和部分数据集中，BLEU 得分都有明显提升，同时，在 GLUE 基准测试中，语法嵌入的 BERT 微调在几个下游任务中表现优于基线。

Nov, 2019

预训练语言模型对源代码的结构分析

此篇论文分析了预训练语言模型，尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质，通过对注意力分析，词嵌入的探索和语法树归纳等方面进行全面分析，揭示出了一些深入的发现，为今后的相关研究提供了启示。

Feb, 2022

Transformer 模型对于源代码的学习

文章提出了利用聚合注意力得分和注意力图从预训练模型自动提取程序图的方法，并将该方法应用于变量误用任务中，证明了自动提取的程序图具有极高的有意义和有效性。

Jul, 2022

通过神经语言模型探索软件自然性

本文探讨了利用预训练的基于 transformer 的语言模型来对代码进行分析任务的能力，通过对 transformer-based language model 进行 AST 标记任务，得出结论表明其在此任务上的表现较好，并在软件漏洞识别任务中与依赖于编译器的基于图形的方法相比，取得了可比拟的成果。

Jun, 2020

CodeTrans: 通过自监督深度学习和高性能计算破译硅谷代码语言

本研究使用 CodeTrans—— 一种编码器 - 解码器 transformer 模型，在六个软件工程任务中探究了 encoder-decoder transformer 模型的有效性，并调查了各种训练策略的影响，包括单任务学习、迁移学习、多任务学习和多任务学习与微调。结果表明，CodeTrans 在所有任务上均优于现有模型。该研究为软件工程领域的未来工作提供了有力的支持，并公开了预训练模型。

Apr, 2021

INSPECT: 代码 Transformer 的内在和系统探测评估

我们使用探测任务来检验预训练模型对源代码的学习程度，并发现结构信息对源代码的特征表示具有改进效果，同时发现 BERT 在某些探测任务上与源代码模型竞争力相当，暗示改进源代码特定的预训练有丰富的机会。

Dec, 2023

Transformers 中的位置信息：概述

本文综述了如何将位置信息整合到 Transformer 模型中，以比较不同方法在重要模型维度上的优劣，以及指出在选择位置编码时应考虑的应用特性，并为未来的研究提供刺激。

Feb, 2021

Syntax-BERT：在预训练变形金刚模型中加入句法树以提升性能

本文提出了一种名为 Syntax-BERT 的新型框架，它可以有效地并高效地将句法树结构融入到基于 Transformer 的任何预训练模型中，并在多个先前的预训练模型上取得了稳定的性能提升，进一步证明了句法信息在 NLP 任务中的重要性。

Mar, 2021

CodeBert 学习的特征：基于 BERT 的源代码表示学习的实证研究

本文论述 Bidirectional Encoder Representations from Transformers（BERT）在源代码表示学习中并不能有效地理解源代码的逻辑，因为源代码的表示还严重依赖于程序员定义的变量和函数名称。

Jan, 2023

基于 Transformer 的源代码摘要方法

本文探讨使用 Transformer 模型和自注意力机制来生成代码表示以进行源代码概述的任务，并提出其相对编码表现显著优于绝对编码，并通过实验验证其在处理长距离依赖性方面的有效性，实现了领先于现有技术的性能表现。

May, 2020