我们警告人们对机器学习领域的经验研究常常存在着一种不完整的理解,这导致实验结果不可复制、发现不可靠,进而威胁到该领域的进展。为了克服这种令人担忧的情况,我们呼吁更多地意识到获得知识的多样性方式以及一些认识论上的限制。特别是,我们认为当前大部分经验机器学习研究实质上是确认性研究,而应该视为探索性研究。
May, 2024
本文旨在提出在强化学习中进行良好实验的方法,并强调常见错误和潜在统计结果,覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等,旨在通过充分利用计算资源来进行良好的实证研究。
Apr, 2023
面对研究的可重复性危机,机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台,但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献,讨论机器学习驱动研究中的可重复性问题和障碍,并探索工具、实践和干预等潜在驱动因素,提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。
Jul, 2023
本文讨论了将深度学习与科学相结合以解决机器学习系统中的严谨性、安全性和可解释性的问题,并提出了关键缺失的假设和测试阶段以及统计和系统不确定性估计。同时,探讨了当前科学在其他领域中的应用,为机器学习研究人员提供了一些有用的实践建议。
Apr, 2019
本文提出了实验研究的数学形式化方法,并发展了一个可量化的泛化概念,旨在探索现有研究的泛化性,并估计实现新研究泛化性所需的实验数量,为此我们应用两个最近发表的基准测试来区分可泛化和不可泛化的结果,并发布了一个 Python 模块,可以用于其他实验研究的分析。
Jun, 2024
本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤,探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素,并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具,分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。
Jun, 2020
本文回顾了当前关于 Artificial Intelligence 的可重复性的文献,并强调了未解决的问题。作者提出了一些建议来提高模型重复性,特别是涉及生物医学和物理人工智能领域的问题。
Feb, 2023
在这篇论文中,我们关注元启发式优化领域中实验部分的研究,以及探讨实验在我们工作中的作用,如基准实例与实例生成器的使用,以及经验结果的统计评估,旨在引发对我们工作的真诚批判性评估的思考过程。
Feb, 2024
我们讨论了机器学习驱动研究的可重复性问题,包括了障碍和驱动因素,旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。
这篇论文调查了机器学习测试中常见的实证评估隐患,通过敏感性分析展示了这些隐患对实验结果的重要性,并提出了一套良好的实证实践以减轻这些隐患的影响。这项研究对软件工程社区的共同问题和良好实践进行了初步调查,并在深度学习测试领域为实证研究设定了特定的期望。
Sep, 2023