BriefGPT.xyz
Ask
alpha
关键词
weight transfer latency
搜索结果 - 1
Endor:用于离线 LLM 推断的硬件友好的稀疏格式
利用稀疏格式来压缩大型语言模型的权重并减少权重传输延迟,从而提高性能。
PDF
19 days ago
Prev
Next