Docker 简介与 R 环境下的可重复研究

Oct, 2014

Docker 简介与 R 环境下的可重复研究

An introduction to Docker for reproducible research, with examples from the R environment

Carl Boettiger

TL;DR本文探讨了计算再现性的重要性和挑战，介绍了当前处理此类问题的方法和局限性，并提出了基于 Docker 技术的解决方法，并给出了几个基于 R 统计环境的 Docker 使用案例。

Abstract

As computational work becomes more and more integral to many aspects of scientific research, computational reproducibility has become an issue of increasing importance to computer systems researchers and domain scientists alike. Though →

computational reproducibility virtual machines workflow systems docker r statistical environment

发现论文，激发创造

Repro: 一个开源库，用于提高公开研究代码的可重复性和可用性

介绍了 Repro 这个开源库，它旨在提高研究代码的可重复性和可用性。Repro 为研究人员发布的软件提供了轻量级的 Python API，使用户无需配置即可在 Docker 容器中运行代码的确切必备运行时配置和依赖项。

Apr, 2022

基于 Docker 部署机器学习项目的实践研究

本研究探讨了 Docker 如何用于部署基于机器学习的项目。研究发现，六类基于机器学习的项目使用 Docker 进行部署，主要为了提高平台的可移植性和跨操作系统、GPU 运行时和语言限制。然而，由于图像层中包含大量的文件和深度嵌套的目录，构建基于机器学习的软件项目需要更多的资源消耗，这是需要改进的方面。

Jun, 2022

缓存和可复现性：使数据科学实验更快、更公平

本文建议将缓存作为数据科学项目中研究软件开发过程的组成部分，以促进实验的重现性和可持续发展，从而实现对数据相关性越来越公平。

Nov, 2022

应对再现性危机：验证认证鲁棒性的案例研究

本文通过案例研究验证了复现性危机对对抗性鲁棒性研究的影响，提出了解决方案，强调了合作和标准化努力的必要性，并倡导了确保研究结果可靠和有效的最佳实践。

May, 2024

机器学习研究中的可重复性：概述、障碍和推动因素

我们讨论了机器学习驱动研究的可重复性问题，包括了障碍和驱动因素，旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。

Jun, 2024

可持续的计算科学：ReScience 倡议

ReScience 是一本基于 GitHub 上的同行评审期刊，旨在促进计算研究的显式复制，支持新的开源实现，以确保原始研究可以从其描述中复制。

Jul, 2017

机器学习驱动研究的可重现性

面对研究的可重复性危机，机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台，但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献，讨论机器学习驱动研究中的可重复性问题和障碍，并探索工具、实践和干预等潜在驱动因素，提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。

Jul, 2023

机器学习流水线：来源追溯性、可重现性和 FAIR 数据原则

本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤，探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素，并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具，分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。

Jun, 2020

可复现性需要一致的实物

机器学习存在严重的 ' 可重复性危机 '，本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析，发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明，不同的超参数选择策略会产生偏差，并得出一个统一框架的集成物能够帮助支持可重复性。

May, 2023

使用 Jupyter Notebook 作为开放科学工具：一项实证研究

Jupyter notebook 是科学家们分享代码、计算和文档的强大工具，以应对数据密集型和计算密集型的科学研究。

Apr, 2018