机器学习中的可维护性挑战:系统性文献综述
该论文调查了部署机器学习模型在实际业务系统中可能遇到的挑战和关注点,并将这些挑战与机器学习部署工作流程的各个阶段对应起来,以期为解决这些挑战探索新的方法和研究方向。
Nov, 2020
本文研究了机器学习在软件系统中的应用,指出了机器学习开发和部署中的三个方面:数据科学、软件工程和运营,及其不当的假设可能导致系统失败,通过调查收集了一组共同的不匹配类型,并且发现每个角色对相关不匹配的重要性的优先级不同,这些发现将有助于提高机器学习能力的系统化发展。
Mar, 2021
该研究通过访谈28个组织中45位从业人员发现,在建立和部署机器学习系统时,团队在需求、数据和整合等方面都面临一些具体的协作挑战,主要来源于沟通、文档记录、工程和流程等方面,因此提出了一些建议以应对这些挑战。
Oct, 2021
研究指出,现有的机器学习开发环境和 API 缺乏足够的指导及软件工程最佳实践,需要在专门开发的机器学习应用程序开发方面扩展和适应软件工程概念、工具和技术,并为机器学习特定的软件工程提供充足的研究机会。
Mar, 2022
该研究论文提出了一个用于分析机器学习系统中软件工程最佳实践集的质量影响和优先级的框架,并介绍了适用于ML系统的分层软件质量模型(SQM)。通过应用集函数优化技术,可以回答哪些实践集可以最大程度地增加SQM覆盖范围,哪些是最重要的,应该实施哪些实践以改善特定的质量方面。
Jun, 2023
在这篇论文中,我们调查了ML-based软件系统中的bug特征以及与非ML bug相比的维护视角的差异,我们提取了使用TensorFlow、Keras和PyTorch这三种最流行的ML框架的447,948个GitHub存储库,然后通过多次过滤选择了具有最多已关闭问题的前300个存储库,并通过对386个抽样报告的问题进行手动检查,我们的研究发现,近一半的ML-based系统中报告的真实问题是ML bug,表明与非ML组件相比,ML组件更容易出错,因此在ML-based系统中,关注ML组件的可靠性非常重要。
Jul, 2023
这项系统文献综述研究了MDE和机器学习(MDE4ML)交叉领域,分析了现有的研究动机、MDE解决方案、评估技术、关键优势和局限性,并提供了未来研究的建议。
Nov, 2023
本研究解决了目前对机器学习(ML)驱动的软件系统特征了解不足的问题。通过对2928个开源系统的分类与分析,提出了一种新的研究思路,揭示了ML模型的嵌入与集成实践。研究结果为从业者和研究人员提供了重要见解,促进数据科学与软件工程的结合。
Aug, 2024