Jul, 2022

使用表征相似性分析探索代码语言模型中的语义基础

TL;DR本文利用相似性比较方法研究语言代码模型的语义基础,并通过 IBM CodeNet 数据集研究 CodeBERT 的语义基础。实验表明,现有的预训练方法并未引入语言代码模型的语义基础,而是集中优化基于形式的模式,而进行少量的语义相关任务的微调,可显著提高 CodeBERT 的语义基础。使用双模态输入比单模态输入更好地提高了 CodeBERT 的语义基础,并具有更高样本效率。最后,实验表明,CodeBERT 能够稳健地区分语义上正确和不正确的代码。