Jan, 2024

ZnTrack -- 数据即代码

TL;DR过去十年在计算领域取得了巨大的突破,并且没有任何迹象表明这种发展会减缓。机器学习、大规模计算资源和增加的行业关注导致对数据管理、模拟和模型生成的计算驱动解决方案的投资不断增加。然而,这种计算的增长也带来了数据规模更大的扩展,以及在数据存储、共享和跟踪方面的复杂性。在这项工作中,我们介绍了ZnTrack,一种基于Python的数据版本管理工具。ZnTrack建立在已经建立的版本控制系统上,为实验参数跟踪、工作流设计、数据存储和共享提供了一个用户友好且易于使用的界面。从将大型数据集简化为一个简单的Python脚本的能力中,我们提出了数据即代码的概念,这是本文提出的工作的核心组成部分,也是在计算时代持续发展的一个无疑重要的概念。ZnTrack提供了一个开源的、符合FAIR数据标准的Python包,使用户能够利用未来的这些概念。