BriefGPT.xyz
大模型
Ask
alpha
关键词
contextual sparsity
搜索结果 - 2
ShadowLLM: 基于预测的上下文稀疏化大语言模型
使用 ShadowLLM 预测器可实现更好的稀疏模式,提高 15% 的准确率,同时减少 20% 的延迟,验证了具有 300 亿参数的模型。
PDF
10 days ago
回到过去:推理阶段中的高效低密度语言模型
使用上下文稀疏性预测算法和异步硬件感知实现,提出了 DejaVu 系统,可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍,并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Fa
→
PDF
8 months ago
Prev
Next