通过将树结构输入 Transformer 进行代码预测

Mar, 2020

通过将树结构输入 Transformer 进行代码预测

Code Prediction by Feeding Trees to Transformers

Seohyun Kim, Jinman Zhao, Yuchi Tian, Satish Chandra

TL;DR该研究使用 Transformer 架构，通过让其了解代码的句法结构，提高了预测代码的准确性，在标准的 Python 数据集和 Facebook 内部 Python 语料库上进行了全面的实验评估。

Abstract

We advance the state-of-the-art in the accuracy of code prediction (next token prediction) used in autocomplete systems. First, we report that using the recently proposed transformer architecture even out-of-the-

code prediction transformer architecture next token prediction syntactic structure python dataset

发现论文，激发创造

Tree-Transformer: 一种基于 Transformer 的树形数据纠错方法

本文提出 Tree-Transformer 神经网络架构，可用于树状结构数据的矫正任务，并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。

Aug, 2019

TreeGen: 基于树状结构的 Transformer 编码生成架构

本文提出了一种基于树结构的神经架构 (TreeGen) 来生成编程语言代码，该模型使用了 Transformer 的注意力机制解决了长依赖问题，并引入了一种新颖的 AST 阅读器 (encoder) 将语法规则和 AST 结构整合到网络中。在 Python 基准测试、ATIS 和 GEO 语义解析基准测试中，TreeGen 的性能优于之前的最先进方法 4.5 个百分点，同时在 ATIS（89.1%）和 GEO（89.6%）的神经网络方法中实现了最佳精度。

Nov, 2019

StructCoder: 面向结构的代码生成 Transformer

本研究利用编码器 - 解码器 Transformer 模型进行编码生成，使用诸如抽象语法树路径预测和数据流预测等辅助任务，结构感知地提高了生成代码质量，实现了代码翻译和文本到代码生成任务的最新性能状态。

Jun, 2022

使用树形编码的 Transformer 实现神经程序生成

使用树形定位编码方案，结合自然语言分词词汇表，在编码任务中应用 Transformers 所能获得更好的效果

May, 2022

基于 Transformer 的源代码实证研究

本文研究了如何使用 Transformers 提取和利用源代码中的句法信息，完成代码自动补全、函数命名和 bug 修复等任务，实现了更好的模型性能。

Oct, 2020

TransformCode: 通过子树转换实现的代码嵌入的对比学习框架

通过使用 Transformer 编码器作为模型的一个关键组成部分并引入了一个名为 TransformCode 的新型框架，该研究论文提出了一种基于对比学习方式学习代码嵌入的方法，并介绍了一种名为抽象语法树转换的新型数据增强技术，从而生成更多样化和稳健的锚点样本。该框架不仅灵活适应，可以扩展到其他需要代码表达的下游任务，而且效率高且可扩展性强，支持任何编程语言。

Nov, 2023

使用 Transformer 将自然语言转化为代码

本文使用 CoNaLa 数据集，利用自注意力变换器结构解决了从自然语言描述中生成代码片段的问题，并表明其表现优于循环注意力编码器解码器，使用修改后的反向翻译和周期一致损失以端到端的方式训练模型，实现了 16.99 的 BLEU 分数，超过了 CoNaLa 挑战的先前基线。

Feb, 2022

回归任务中树状神经网络的行为分析

本文通过解析抽象语法树（AST）推测了基于树状神经网络模型的行为，并提出了一种双重变换器方法，通过源代码标记和 AST 表示进行交叉注意力机制的操作，进一步探索了图神经网络（GNN）对于基于树状问题的适应性，实证评估发现，我们的双重变换器模型在各种数据集上表现出色，优于其他基于树状神经网络和基于 GNN 的模型。

Jun, 2024

GraphCodeBERT：使用数据流进行代码表示预训练

GraphCodeBERT 是一种基于 Transformer 的预训练模型，通过使用数据流而不是抽象语法树的句法级别结构，可以更有效地编码代码的语义结构，从而提高代码理解过程。其结构感知的预训练任务可以改善 GraphCodeBERT，并在代码搜索，克隆检测，代码翻译和代码优化等方面实现了最先进的性能。

Sep, 2020

代码结构指导的源代码摘要变压器

本文提出了一个名为 SG-Trans 的新颖方法，通过将本地符号信息和全局句法结构注入到 Transformer 的自注意模块作为归纳偏置，并设计能够分布在 Transformer 的较低层和高层的注意头中，进一步捕捉代码的层次特征，将其有效地集成到 Transformer 来实现深度学习自动生成代码摘要，经过广泛评估，SG-Trans 相对于最佳基准测试结果在两个基准数据集上分别提高了 1.4％和 2.0％的 METEOR 得分，这是一种广泛用于测量生成质量的指标。

Apr, 2021