Oct, 2024

前馈模型中的密度倾向

TL;DR本研究旨在探讨在训练神经网络时,是否总是会利用所有可用权重,即使任务可以通过更少的权重解决。研究表明,模型的宽度对可剪枝权重比例的影响有限,且在不同大小的模型中,绝大多数权重的剪枝能力是一致的。此发现提示在各种模型规模下均存在显著的剪枝潜力,具有重要的实践意义。