May, 2024

通过无监督相似度度量集成的高级源代码克隆检测

TL;DR该研究介绍了一种新的集成学习方法来评估代码相似性,结合多种无监督相似度度量的优点。初步结果表明,尽管基于 Transformers 的 CodeBERT 和其变种 GraphCodeBERT 在有充足训练数据的情况下是最佳选择,但在特定的小数据集(最多 500 个样本)的情况下,我们的集成方法达到了类似的结果,而且结果解释性较强,与训练相关的碳足迹明显较低。