衡量 AI 系统的方式：超越准确性

本文综述了 144 篇关于机器学习测试（ML Testing）的研究论文，涵盖了测试属性（如正确性，鲁棒性和公平性）、测试组件（如数据、学习程序和框架）、测试工作流（如测试生成和测试评估）和应用场景（如自动驾驶、机器翻译）。研究还分析了数据集、研究趋势和研究重点的趋势，并得出了 ML 测试中的研究挑战和有前景的研究方向。

Jun, 2019

研究机器学习软件测试实践

我们进行了第一项细致入微的实证研究，以填补现有研究中对机器学习软件测试实践的知识空白，从而识别机器学习质量属性、测试策略以及它们在机器学习工作流中的实施。

Dec, 2023

EvalAI: 为 AI 代理构建更好的评估系统

EvalAI 是一个开源工具，用于评估和比较规模化的机器学习和人工智能算法，通过标注或与人交互的方式对机器学习模型进行评估，从而帮助全球范围内的研究人员、学生和数据科学家创建、协作和参与人工智能挑战，降低机器学习和人工智能的门槛，从而提高领域内可量化的进展速度。

Feb, 2019

机器学习系统可靠性的整体评估

该研究提出了一个综合评估机器学习系统可靠性的方法，侧重考虑诸如敌对攻击、性能下降以及算法技术等方面的问题，并对 500 多个模型进行了分析，为未来的研究和发展提供了指导。

Jul, 2023

软件测试中的人工智能：影响、问题、挑战和前景

本研究旨在探讨人工智能技术在软件测试活动和方面中的影响，以及 AI 在软件测试领域未来的一些关键贡献和应用面临的挑战。

Jan, 2022