Jun, 2024

Endor:用于离线 LLM 推断的硬件友好的稀疏格式

TL;DR利用稀疏格式来压缩大型语言模型的权重并减少权重传输延迟,从而提高性能。