BriefGPT.xyz
Ask
alpha
关键词
flash-llm
搜索结果 - 1
Flash-LLM:使用非结构稀疏性实现成本效益高且高效的大型生成模型推断
Flash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架,通过优化稀疏矩阵乘法,在高性能 Tensor Cores 上实现了显著的性能提升。
PDF
10 months ago
Prev
Next