Mar, 2018

code2vec: 学习代码的分布式表示

TL;DR本文介绍了一种基于神经网络模型的代码嵌入方法,通过将代码片段表示为单一的固定长度代码向量,学习抽象语法树中路径的原子表示,并同时学习集合聚合的方法,从而预测代码的语义属性。通过训练一个包含 14M 个方法的数据集,我们证明了该方法的有效性,并通过相应的数据比较表明,该方法比先前的技术有着相对提高超过 75%,是第一个成功预测大型跨项目语料库上的方法名的方法。