May, 2024

实现分布式深度神经网络训练仿真的灵活和高保真方法

TL;DR我们提出了 NeuronaBox,一种灵活、易用且高逼真的 DNN 训练工作负载仿真方法,通过在一部分真实节点上执行训练工作负载并模拟网络执行环境以及集体通信操作,可以准确观察性能。初步结果显示,NeuronaBox 与实际系统行为高度一致,仿真测量与真实系统之间的误差小于 1%。