CodeBERT：编程和自然语言的预训练模型

EMNLPFeb, 2020

CodeBERT：编程和自然语言的预训练模型

CodeBERT: A Pre-Trained Model for Programming and Natural Languages

PDF

Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng...

TL;DRCodeBERT 是一种双模态预训练模型，支持自然语言和编程语言应用，基于 Transformer 神经架构，通过替换标记检测的预训练任务进行训练，表现出卓越的性能和前瞻性。

Abstract

We present codebert, a bimodal pre-trained model for programming language (PL) and nat-ural language (NL). →

codebert bimodal pre-trained model natural language programming language transformer-based neural architecture

发现论文，激发创造

CodeT5: 面向标识符的统一预训练编码器 - 解码器模型用于代码理解与生成

CodeT5 是一个基于编码器 - 解码器的统一预训练 Transformer 模型，它充分利用了开发人员分配的标识符所传达的代码语义，通过支持代码理解和生成任务以及多任务学习等方面，显著优于先前的方法，并且在代码缺陷检测和克隆检测等理解任务以及 PL-NL，NL-PL 和 PL-PL 等不同方向的生成任务中表现出色。

Sep, 2021

程序理解和生成的统一预训练

PLBART 是一个可进行广泛的程序和语言理解和生成任务的序列到序列模型，已在 Java 和 Python 函数和相关的自然语言文本上进行预训练，实验证明其在代码总结、生成和翻译方面表现优异，同时在程序理解方面也表现出色。

Mar, 2021

SynCoBERT：针对代码表示的语法引导的多模式对比预训练

本文提出了 SynCoBERT—— 一种语法引导的，多模态对比预训练方法，旨在更好地表示代码，其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测，并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验，SynCoBERT 在与相同的预训练语料库和模型大小进行比较时，提高了与代码智能相关的四个下游任务的最新性能。

Aug, 2021

GraphCodeBERT：使用数据流进行代码表示预训练

GraphCodeBERT 是一种基于 Transformer 的预训练模型，通过使用数据流而不是抽象语法树的句法级别结构，可以更有效地编码代码的语义结构，从而提高代码理解过程。其结构感知的预训练任务可以改善 GraphCodeBERT，并在代码搜索，克隆检测，代码翻译和代码优化等方面实现了最先进的性能。

Sep, 2020

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

NatGen: 自然化源代码的生成式预训练

本文提出了一种新的预训练目标 —— 源代码的自然化，在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换，来训练生成等效但更加自然的代码，进一步提升了自然代码的统计学习能力，实现了三种软件工程任务的生成，翻译和细化，达到了 CodeT5 的水平。

Jun, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

BERT 中代码注意力的探索研究

研究表明，将标识符用于代码克隆检测中，可以增加 Transformers 预训练语言模型的性能，对代码进行特定的表示，而不是应用于自然语言处理的通用表示。

Apr, 2022

应用 CodeBERT 对 Java 简单缺陷进行自动化程序修复

本文提出一种基于 CodeBERT 的自动化程序修复方法，使用 ManySStuBs4J 小和大数据集对模型进行微调，能够准确地预测开发人员在 19-72％的情况下实现修复代码，并可以在不到一秒钟的时间内自动生成修复程序。

Mar, 2021

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020