Jun, 2024

ShadowLLM: 基于预测的上下文稀疏化大语言模型

TL;DR使用 ShadowLLM 预测器可实现更好的稀疏模式,提高 15% 的准确率,同时减少 20% 的延迟,验证了具有 300 亿参数的模型。