Jun, 2022

NatGen: 自然化源代码的生成式预训练

TL;DR本文提出了一种新的预训练目标 —— 源代码的自然化,在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换,来训练生成等效但更加自然的代码,进一步提升了自然代码的统计学习能力,实现了三种软件工程任务的生成,翻译和细化,达到了 CodeT5 的水平。