Apr, 2022

用基于 FPGA 的智能网卡实现分布式 AI 训练系统的可扩展性

TL;DR通过使用基于 FPGA 的 AI 智能网卡加速所有约减操作并通过数据压缩优化网络带宽利用率,该论文提出了一种新的分布式 AI 培训系统,为计算密集型张量操作释放了系统的计算资源,并提高了节点间通信效率。在验证分析模型的同时,该方法可将培训性能提高 1.6 倍至 6 个节点,而在 32 个节点时可能有 2.5 倍的性能提升。