Aug, 2023

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

TL;DREdgeMoE 是面向边缘设备的第一个在设备上推理引擎,针对稀疏 LLMs 的一种流行变体,它通过在存储层次结构中策略性地分割模型,实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销,经过实证评估,与竞争性基线解决方案相比,EdgeMoE 在内存节省和性能改进方面展现出显著优势。