Apr, 2021
深度学习推荐模型快速可扩展训练的软件硬件协同设计
Software-Hardware Co-design for Fast and Scalable Training of Deep Learning Recommendation Models
Dheevatsa Mudigere, Yuchen Hao, Jianyu Huang, Zhihao Jia, Andrew Tulloch...
TL;DR本文介绍了使用 PyTorch 和 Zion platform 的高性能可扩展软件堆栈的 SW/HW 共同设计方案,用于高效训练大规模 DLRMs,实现了可分层分区和高性能的数据通信等多项优化,从而在之前系统的基础上将训练时间提速了 40 倍。