Apr, 2022

利用字符语言模型和命名实体识别生成代码注释

TL;DR本文提出 LAnguage Model and Named Entity Recognition (LAMNER) 模型,通过字符级别语言模型来学习代码单元的语义表示,并使用命名实体识别模型来学习不同类型的代码标记的结构属性,在编码器 - 解码器结构中生成代码注释。在流行的 Java 数据集上进行评估,结果表明 LAMNER 可以有效地生成注释,并在 BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、METEOR 和 CIDEr 等四种常用度量标准上改进了最佳基准模型的 14.34%,18.98%,21.55%,23.00%,10.52%,1.44%和 25.86%。同时,融合 LAMNER 的代码表示和基准模型,融合模型显示出优于非融合模型的结果。人工评估进一步表明,LAMNER 可以生成高质量的代码注释。