CodeBERT:编程和自然语言的预训练模型
CodeT5 是一个基于编码器 - 解码器的统一预训练 Transformer 模型,它充分利用了开发人员分配的标识符所传达的代码语义,通过支持代码理解和生成任务以及多任务学习等方面,显著优于先前的方法,并且在代码缺陷检测和克隆检测等理解任务以及 PL-NL,NL-PL 和 PL-PL 等不同方向的生成任务中表现出色。
Sep, 2021
PLBART 是一个可进行广泛的程序和语言理解和生成任务的序列到序列模型,已在 Java 和 Python 函数和相关的自然语言文本上进行预训练,实验证明其在代码总结、生成和翻译方面表现优异,同时在程序理解方面也表现出色。
Mar, 2021
本文提出了 SynCoBERT—— 一种语法引导的,多模态对比预训练方法,旨在更好地表示代码,其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测,并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验,SynCoBERT 在与相同的预训练语料库和模型大小进行比较时,提高了与代码智能相关的四个下游任务的最新性能。
Aug, 2021
GraphCodeBERT 是一种基于 Transformer 的预训练模型,通过使用数据流而不是抽象语法树的句法级别结构,可以更有效地编码代码的语义结构,从而提高代码理解过程。其结构感知的预训练任务可以改善 GraphCodeBERT,并在代码搜索,克隆检测,代码翻译和代码优化等方面实现了最先进的性能。
Sep, 2020
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文提出了一种新的预训练目标 —— 源代码的自然化,在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换,来训练生成等效但更加自然的代码,进一步提升了自然代码的统计学习能力,实现了三种软件工程任务的生成,翻译和细化,达到了 CodeT5 的水平。
Jun, 2022
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
研究表明,将标识符用于代码克隆检测中,可以增加 Transformers 预训练语言模型的性能,对代码进行特定的表示,而不是应用于自然语言处理的通用表示。
Apr, 2022
本文提出一种基于 CodeBERT 的自动化程序修复方法,使用 ManySStuBs4J 小和大数据集对模型进行微调,能够准确地预测开发人员在 19-72%的情况下实现修复代码,并可以在不到一秒钟的时间内自动生成修复程序。
Mar, 2021
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020