Jan, 2024

FP6-LLM: 通过FP6中心算法系统共同设计高效服务大型语言模型

TL;DR通过提出的TC-FPx全栈GPU核心设计方案,结合张量核心支持,为量化的大型语言模型推理提供全新的端到端支持(称为FP6-LLM),实现了推理成本和模型质量之间的更好平衡。