Jun, 2024

FLUX: 通过内核融合在 GPU 上实现快速的基于软件的通信重叠

TL;DRFlux 是一种新方法,通过细粒度操作和融合以有效地隐藏通信并提高内核效率,可以在集群上实现训练和推断的速度提升。