May, 2021

TreeBERT: 面向编程语言的基于树形结构的预训练模型

TL;DR本文提出 TreeBERT,一个基于树结构的预训练模型,用于改进编程语言相关的生成任务。TreeBERT 采用一系列组合路径和节点位置嵌入来表示代码对应的 AST,并通过基于树掩码语言模型 (TMLM) 和节点排序预测 (NOP) 的混合目标进行训练。在多项编程语言数据集上进行的预训练实验结果表明,TreeBERT 在代码摘要和代码文档生成任务中优于其他预训练模型和业界最优模型。此外,TreeBERT 在跨编程语言应用时也表现出色。