BriefGPT.xyz
大模型
Ask
alpha
关键词
layer-pruning strategy
搜索结果 - 1
深层网络的不合理无效性
通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深
→
PDF
3 months ago
Prev
Next