Jan, 2024

G-Meta: 大规模推荐系统的 GPU 集群分布式元学习

TL;DR提供了一种针对基于元学习的 DLRM 模型的高性能框架,名为 G-Meta,在 GPU 集群上实现大规模训练,通过数据并行和模型并行来实现高速分布式训练,并提出了 Meta-IO 管道来解决 I/O 瓶颈,具有显著的训练速度和统计性能改进。