Jan, 2024

FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型

TL;DR通过提出的 TC-FPx 全栈 GPU 核心设计方案,结合张量核心支持,为量化的大型语言模型推理提供全新的端到端支持(称为 FP6-LLM),实现了推理成本和模型质量之间的更好平衡。