Docker 简介与 R 环境下的可重复研究
介绍了 Repro 这个开源库,它旨在提高研究代码的可重复性和可用性。Repro 为研究人员发布的软件提供了轻量级的 Python API,使用户无需配置即可在 Docker 容器中运行代码的确切必备运行时配置和依赖项。
Apr, 2022
本研究探讨了 Docker 如何用于部署基于机器学习的项目。研究发现,六类基于机器学习的项目使用 Docker 进行部署,主要为了提高平台的可移植性和跨操作系统、GPU 运行时和语言限制。然而,由于图像层中包含大量的文件和深度嵌套的目录,构建基于机器学习的软件项目需要更多的资源消耗,这是需要改进的方面。
Jun, 2022
本文通过案例研究验证了复现性危机对对抗性鲁棒性研究的影响,提出了解决方案,强调了合作和标准化努力的必要性,并倡导了确保研究结果可靠和有效的最佳实践。
May, 2024
我们讨论了机器学习驱动研究的可重复性问题,包括了障碍和驱动因素,旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。
Jun, 2024
ReScience 是一本基于 GitHub 上的同行评审期刊,旨在促进计算研究的显式复制,支持新的开源实现,以确保原始研究可以从其描述中复制。
Jul, 2017
面对研究的可重复性危机,机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台,但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献,讨论机器学习驱动研究中的可重复性问题和障碍,并探索工具、实践和干预等潜在驱动因素,提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。
Jul, 2023
本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤,探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素,并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具,分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。
Jun, 2020
机器学习存在严重的 ' 可重复性危机 ',本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析,发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明,不同的超参数选择策略会产生偏差,并得出一个统一框架的集成物能够帮助支持可重复性。
May, 2023
Jupyter notebook 是科学家们分享代码、计算和文档的强大工具,以应对数据密集型和计算密集型的科学研究。
Apr, 2018