基于 Bauplan 和 Nessie 的可重现数据湖数据科学:可回放数据流水线
本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤,探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素,并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具,分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。
Jun, 2020
Oobleck 采用规划执行的共同设计方法,通过生成一组异构的流水线模板,并实例化至少 f+1 个逻辑上等效的流水线副本以容忍 f 个同时故障,依赖于副本之间已复制的模型状态快速恢复,并保证在 f 个或更少的同时故障后,初始创建的流水线模板可以覆盖所有可用资源,从而始终避免资源闲置。在具有数十亿个参数的大规模 DNN 模型上的评估表明,Oobleck 提供了一致高吞吐量,并且比像 Bamboo 和 Varuna 这样的最新故障容错解决方案表现优越,提升了 13.9 倍。
Sep, 2023
Deep Lake 是面向深度学习应用的开放式数据湖,它在保持数据湖优势的同时,存储更丰富的复杂数据,并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架,同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。
Sep, 2022
介绍了 Repro 这个开源库,它旨在提高研究代码的可重复性和可用性。Repro 为研究人员发布的软件提供了轻量级的 Python API,使用户无需配置即可在 Docker 容器中运行代码的确切必备运行时配置和依赖项。
Apr, 2022
本文探讨了计算再现性的重要性和挑战,介绍了当前处理此类问题的方法和局限性,并提出了基于 Docker 技术的解决方法,并给出了几个基于 R 统计环境的 Docker 使用案例。
Oct, 2014
在数据湖之中,企业内部需要智能地进行数据发现,特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试,并比较了 4 个公开可用的表格模型在这些任务上的表现,结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。
Jul, 2023
介绍了一种名为 Biathlon 的新型 ML 服务系统,利用模型的韧性并确定每个聚合特征的最佳近似度,实现了最大速度提升,同时确保准确性损失的保证边界。通过在工业应用和数据科学竞赛中的实际管道上评估 Biathlon,证明了其在满足实时延迟要求方面的能力,实现了 5.3 倍至 16.6 倍的速度提升,几乎没有准确性损失。
May, 2024
机器学习存在严重的 ' 可重复性危机 ',本文通过对 ReScience C 的 142 个复制研究和 204 个代码库进行元分析,发现缺少实验细节如超参数可能是可重复性差的潜在原因。文章实验表明,不同的超参数选择策略会产生偏差,并得出一个统一框架的集成物能够帮助支持可重复性。
May, 2023
本文介绍了 NAS-Bench-101,这是第一个公开的神经架构搜索数据集,并描述了它是如何通过在 CIFAR-10 上训练和评估超过 423k 个卷积架构来构建的,旨在帮助研究者在毫秒内查询预计算的数据集来评估各种模型的质量。此外,作者还展示了该数据集作为整体的可用性以及对一系列架构优化算法进行基准测试的实用性。
Feb, 2019