机器学习应用的代码异味

Mar, 2022

Code Smells for Machine Learning Applications

Haiyin Zhang, Luís Cruz, Arie van Deursen

TL;DR该论文提出了 22 个机器学习代码异味，解释了它们的背景和可能产生的后果，并给出了相应的解决方案以及它们所属的流程阶段和相关证据，以帮助数据科学家和开发人员生成和维护高质量的机器学习应用程序代码。

Abstract

The popularity of machine learning has wildly expanded in recent years. machine learning techniques have been heatedly studied in academia and applied in the industry to create business value. However, there is a

machine learning code quality code smell pipeline data science

发现论文，激发创造

利用 mllint 分析机器学习项目的软件质量的经验与探讨：关于项目异味的探究

本研究提出 project smells 的概念，在工业上下文中对 ING 进行评估并实施了开源静态分析工具 mllint，发现需要上下文感知的静态分析工具，以适应项目当前发展阶段的需求，并要求用户进行最少的配置工作。

Jan, 2022

数据异常：人工智能系统中可疑数据的类别、原因、后果和检测

提出了数据气味的概念，即潜在、不明显的数据质量问题，分为可信度气味、可理解性气味、一致性气味，介绍了检测数据气味的工具支持，并在超过 240 个真实数据集上进行了初步的气味检测。

Mar, 2022

代码异味数据集和验证机制的系统文献综述

通过评估 45 个现有的数据集，我们发现指标工具报告的准确度因用于评估工具的数据集而异。现有的数据集支持 God Class，Long Method 和 Feature Envy，但 Fowler 和 Beck 目录中的六种气味没有任何数据集支持。我们得出结论，现有的数据集在样本不平衡，缺乏支持严重程度级别和限制 Java 语言方面存在问题。

Jun, 2023

源代码分析的机器学习技术调查

本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态，并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上，文章总结了研究观察和发现，并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具，并讨论了这一领域面临的各种挑战。

Oct, 2021

DACOS - 代码异味手动注释数据集

本文介绍了使用机器学习技术来检测代码坏味道的 DACOS 数据集，该数据集包含了 10,267 个对 5,192 个代码片段的注释，并通过第一阶段确定指标的阈值和第二阶段收集注释来识别潜在主观的代码片段。同时，作者还开发了一个网络应用程序 TagMan，以帮助标注者浏览和标记代码片段并记录提供的注释。这个数据集可以帮助研究人员建立相关的、上下文感知的机器学习模型。

Mar, 2023

循着最佳实践指引的机器学习

本文旨在通过分析机器学习在软件工程中的最佳实践，填补现有文献不足的空缺，并针对机器学习应用所面临的挑战和开发过程，提出一系列以软件工程视角为基础的建议。

Apr, 2023

源代码相似性测量和克隆检测的系统文献综述：技术、应用和挑战

对代码相似性测量和评估技术进行系统的文献综述和元分析，调查了现有方法及其在不同应用领域的特点，揭示了领域内存在的主要挑战。

Jun, 2023

应用机器学习分析软件质量测试

本文利用机器学习对可用数据进行了操作并计算出了累计软件故障程度。应用机器学习预测软件的残余缺陷，以准确预测软件故障是本文的总体目标。

May, 2023

应用软件工程技术实现应用机器学习的指导

研究指出，现有的机器学习开发环境和 API 缺乏足够的指导及软件工程最佳实践，需要在专门开发的机器学习应用程序开发方面扩展和适应软件工程概念、工具和技术，并为机器学习特定的软件工程提供充足的研究机会。

Mar, 2022

机器学习系统的质量管理

本文提出了一个基于现有进展的全面质量管理框架视角，并确定了软件工程研究的新领域，以实现更可靠的人工智能。

Jun, 2020