Oct, 2023

SiDA: 基于稀疏性的数据感知服务,用于高效和可扩展的大型专家混合模型

TL;DR通过采用数据感知视角,SiDA 以最小的性能损失实现了 Mixture-of-Experts 推理的显著加速,具有高达 3.93 倍吞吐量提升、高达 75% 的延迟降低和高达 80% 的 GPU 内存节省,为大型的混合专家模型的可扩展和高效部署铺平了道路。