BriefGPT.xyz
Ask
alpha
关键词
tensor parallel
搜索结果 - 1
TP 感知的去量化
通过优化的推断部署方案,在分布式部署大型语言模型时减少了模型推断延迟。
PDF
6 months ago
Prev
Next