Mar, 2024

SATDAUG - 用于检测自我承认技术债务的平衡增强数据集

TL;DR自承的技术债(SATD)是一种技术债形式,在其中开发人员明确承认和记录代码库中存在的技术捷径、变通方案或暂时解决方案。在过去几年中,研究人员通过人工标注数据集,包括源代码注释、问题跟踪器和拉取请求部分的消息以及提交消息,以用于训练、评估、性能验证和改进机器学习和深度学习模型来准确识别SATD实例。然而,现有数据集中存在类别不平衡的严重挑战,特别是当研究人员有兴趣对SATD的具体类型进行分类时。为了解决现有数据集中SATD识别(即实例是否为SATD)和分类(即对哪种类型的SATD进行分类)的标记数据不足的问题,我们分享了SATDAUG数据集,这是现有SATD数据集的增强版本,包括源代码注释、问题跟踪器、拉取请求和提交消息。这些增强的数据集在可用的工件相关性方面进行了平衡,并为训练机器学习或深度学习模型提供了更丰富的标记数据源。