Mar, 2024

深层网络的不合理无效性

TL;DR通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深层的参数,或者浅层起到了关键的存储知识的作用。