Oct, 2023

提升二进制代码注释质量分类:集成生成人工智能以提高准确性

TL;DR通过整合生成的代码和注释对,提高二进制代码注释质量分类模型的准确性, 使用包含 9048 对用 C 语言编写的代码和注释的数据集,每个都标注为 “有用” 或 “无用”。除此之外,还使用大型语言模型架构生成代码和注释对,并标记以指示其效用。这一努力的成果包括两个分类模型:一个利用原始数据集,另一个整合了新生成的代码注释对和标签的增强数据集。