基于 Bauplan 和 Nessie 的可重现数据湖数据科学：可回放数据流水线

Apr, 2024

基于 Bauplan 和 Nessie 的可重现数据湖数据科学：可回放数据流水线

Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie

Jacopo Tagliabue, Ciro Greco

TL;DR介绍了在面临数据湖中数据工作负载可重现性的挑战时，Bauplan 在解决此问题方面的最新进展，通过将计算与数据管理解耦，并利用具有 Git 语义的开源目录 Nessie 以及云运行时，展示了系统提供时间旅行和分支语义以及通过少数 CLI 命令实现完整的管道可重现性的能力。

Abstract

As the lakehouse architecture becomes more widespread, ensuring the reproducibility of data workloads over data lakes emerges as a crucial concern for data engineers. However, achieving →

lakehouse architecture reproducibility data pipelines business logic object storage

发现论文，激发创造

机器学习流水线：来源追溯性、可重现性和 FAIR 数据原则

本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤，探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素，并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具，分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。

Jun, 2020

缓存和可复现性：使数据科学实验更快、更公平

本文建议将缓存作为数据科学项目中研究软件开发过程的组成部分，以促进实验的重现性和可持续发展，从而实现对数据相关性越来越公平。

Nov, 2022

弹性分布式训练大型模型的管道模板

Oobleck 采用规划执行的共同设计方法，通过生成一组异构的流水线模板，并实例化至少 f+1 个逻辑上等效的流水线副本以容忍 f 个同时故障，依赖于副本之间已复制的模型状态快速恢复，并保证在 f 个或更少的同时故障后，初始创建的流水线模板可以覆盖所有可用资源，从而始终避免资源闲置。在具有数十亿个参数的大规模 DNN 模型上的评估表明，Oobleck 提供了一致高吞吐量，并且比像 Bamboo 和 Varuna 这样的最新故障容错解决方案表现优越，提升了 13.9 倍。

Sep, 2023

深湖：一个深度学习的数据湖

Deep Lake 是面向深度学习应用的开放式数据湖，它在保持数据湖优势的同时，存储更丰富的复杂数据，并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架，同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。

Sep, 2022

Repro: 一个开源库，用于提高公开研究代码的可重复性和可用性

介绍了 Repro 这个开源库，它旨在提高研究代码的可重复性和可用性。Repro 为研究人员发布的软件提供了轻量级的 Python API，使用户无需配置即可在 Docker 容器中运行代码的确切必备运行时配置和依赖项。

Apr, 2022

Docker 简介与 R 环境下的可重复研究

本文探讨了计算再现性的重要性和挑战，介绍了当前处理此类问题的方法和局限性，并提出了基于 Docker 技术的解决方法，并给出了几个基于 R 统计环境的 Docker 使用案例。

Oct, 2014

LakeBench：数据湖上的数据发现基准测试

在数据湖之中，企业内部需要智能地进行数据发现，特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试，并比较了 4 个公开可用的表格模型在这些任务上的表现，结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。

Jul, 2023

Biathlon: 利用模型弹性优化加速 ML 推理管道

介绍了一种名为 Biathlon 的新型 ML 服务系统，利用模型的韧性并确定每个聚合特征的最佳近似度，实现了最大速度提升，同时确保准确性损失的保证边界。通过在工业应用和数据科学竞赛中的实际管道上评估 Biathlon，证明了其在满足实时延迟要求方面的能力，实现了 5.3 倍至 16.6 倍的速度提升，几乎没有准确性损失。

May, 2024

可复现性需要一致的实物

机器学习存在严重的 ' 可重复性危机 '，本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析，发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明，不同的超参数选择策略会产生偏差，并得出一个统一框架的集成物能够帮助支持可重复性。

May, 2023

NAS-Bench-101：面向可重复的神经网络架构搜索

本文介绍了 NAS-Bench-101，这是第一个公开的神经架构搜索数据集，并描述了它是如何通过在 CIFAR-10 上训练和评估超过 423k 个卷积架构来构建的，旨在帮助研究者在毫秒内查询预计算的数据集来评估各种模型的质量。此外，作者还展示了该数据集作为整体的可用性以及对一系列架构优化算法进行基准测试的实用性。

Feb, 2019