Sep, 2023

Flash-LLM:使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

TL;DRFlash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架,通过优化稀疏矩阵乘法,在高性能 Tensor Cores 上实现了显著的性能提升。