本研究提出 project smells 的概念,在工业上下文中对 ING 进行评估并实施了开源静态分析工具 mllint,发现需要上下文感知的静态分析工具,以适应项目当前发展阶段的需求,并要求用户进行最少的配置工作。
Jan, 2022
提出了数据气味的概念,即潜在、不明显的数据质量问题,分为可信度气味、可理解性气味、一致性气味,介绍了检测数据气味的工具支持,并在超过 240 个真实数据集上进行了初步的气味检测。
Mar, 2022
通过评估 45 个现有的数据集,我们发现指标工具报告的准确度因用于评估工具的数据集而异。现有的数据集支持 God Class,Long Method 和 Feature Envy,但 Fowler 和 Beck 目录中的六种气味没有任何数据集支持。我们得出结论,现有的数据集在样本不平衡,缺乏支持严重程度级别和限制 Java 语言方面存在问题。
Jun, 2023
本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态,并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上,文章总结了研究观察和发现,并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具,并讨论了这一领域面临的各种挑战。
Oct, 2021
本文介绍了使用机器学习技术来检测代码坏味道的 DACOS 数据集,该数据集包含了 10,267 个对 5,192 个代码片段的注释,并通过第一阶段确定指标的阈值和第二阶段收集注释来识别潜在主观的代码片段。同时,作者还开发了一个网络应用程序 TagMan,以帮助标注者浏览和标记代码片段并记录提供的注释。这个数据集可以帮助研究人员建立相关的、上下文感知的机器学习模型。
Mar, 2023
本文旨在通过分析机器学习在软件工程中的最佳实践,填补现有文献不足的空缺,并针对机器学习应用所面临的挑战和开发过程,提出一系列以软件工程视角为基础的建议。
Apr, 2023
对代码相似性测量和评估技术进行系统的文献综述和元分析,调查了现有方法及其在不同应用领域的特点,揭示了领域内存在的主要挑战。
本文利用机器学习对可用数据进行了操作并计算出了累计软件故障程度。应用机器学习预测软件的残余缺陷,以准确预测软件故障是本文的总体目标。
May, 2023
研究指出,现有的机器学习开发环境和 API 缺乏足够的指导及软件工程最佳实践,需要在专门开发的机器学习应用程序开发方面扩展和适应软件工程概念、工具和技术,并为机器学习特定的软件工程提供充足的研究机会。
本文提出了一个基于现有进展的全面质量管理框架视角,并确定了软件工程研究的新领域,以实现更可靠的人工智能。
Jun, 2020