Jun, 2024

AuthAttLyzer-V2: 通过增强集成学习模型揭示代码创作归属性和生成基准数据集

TL;DR这篇论文介绍了AuthAttLyzer-V2,它是一种新的源代码特征提取器,用于源代码作者归属的确定,重点关注词法、语义、句法和N-gram特征。论文通过对来自3,000个作者的24,000个源代码样本进行研究,结合Random Forest、Gradient Boosting和XGBoost模型来识别个体编码样式,提供了有关代码作者独特属性的洞察。对于恶意软件分类来说,这种方法对于理解和解释作者归属中的复杂模式至关重要。