Jan, 2024

TP 感知的去量化

TL;DR通过优化的推断部署方案,在分布式部署大型语言模型时减少了模型推断延迟。