Apr, 2024

重访使用抽象语法树编辑距离评估代码相似度

TL;DR本文重新审视了最近的代码相似性评估度量,特别关注抽象语法树(AST)编辑距离在不同编程语言中的应用。我们探讨了这些度量的实用性,并将它们与传统的序列相似度度量进行了比较。我们的实验展示了 AST 编辑距离在捕捉复杂代码结构方面的有效性,与已有度量具有高度相关性。此外,我们还比较了 AST 编辑距离和基于提示的 GPT 相似度评分与 BLEU 分数、执行匹配和 Jaccard 相似度之间的优势和劣势。我们提出、优化并发布了一种可适应所有测试语言的度量方法,代表了增强版本的树编辑距离相似度(TSED)的成果。