机器学习软件系统的测试与评估 (T&E) 是具有挑战性的,需要新的系统测试方法、适应度测量和指标以解决系统整个生命周期中的 T&E 难题。
Oct, 2023
MLTE 框架是一种机器学习模型和系统评估的方法,通过将现有的评估技术编译成团队间的组织过程,支持跨学科团队对模型进行测试和评估,为团队提供领域特定语言、评估指标收集系统和交互功能。
Mar, 2023
本文提出了一个基于现有进展的全面质量管理框架视角,并确定了软件工程研究的新领域,以实现更可靠的人工智能。
Jun, 2020
通过描述和评估不同的 AI 系统评估方式,本文首先关注传统的以任务为中心的评估方法,然后提出了能力为中心的新型评估方法,并探讨了几种可能的评估方式,包括从认知测试中衍生的测试和通用心理测量法的更一般方法。
Aug, 2014
讨论机器学习的软件测试以确保其正确性和可靠性,尤其是在安全关键应用中存在欺骗和错误等挑战,探讨六个关键挑战领域及其局限,提出继续研究方向。
Apr, 2022
本文综述了 144 篇关于机器学习测试(ML Testing)的研究论文,涵盖了测试属性(如正确性,鲁棒性和公平性)、测试组件(如数据、学习程序和框架)、测试工作流(如测试生成和测试评估)和应用场景(如自动驾驶、机器翻译)。研究还分析了数据集、研究趋势和研究重点的趋势,并得出了 ML 测试中的研究挑战和有前景的研究方向。
Jun, 2019
我们进行了第一项细致入微的实证研究,以填补现有研究中对机器学习软件测试实践的知识空白,从而识别机器学习质量属性、测试策略以及它们在机器学习工作流中的实施。
Dec, 2023
EvalAI 是一个开源工具,用于评估和比较规模化的机器学习和人工智能算法,通过标注或与人交互的方式对机器学习模型进行评估,从而帮助全球范围内的研究人员、学生和数据科学家创建、协作和参与人工智能挑战,降低机器学习和人工智能的门槛,从而提高领域内可量化的进展速度。
Feb, 2019
该研究提出了一个综合评估机器学习系统可靠性的方法,侧重考虑诸如敌对攻击、性能下降以及算法技术等方面的问题,并对 500 多个模型进行了分析,为未来的研究和发展提供了指导。
Jul, 2023
本研究旨在探讨人工智能技术在软件测试活动和方面中的影响,以及 AI 在软件测试领域未来的一些关键贡献和应用面临的挑战。
Jan, 2022