Jun, 2024

重新思考大型语言模型剪枝:重构误差最小化的好处和陷阱

TL;DR通过分割模型、顺序修剪、重构稠密对应模型的预测,及时合并稀疏子模型,本文首次提出了一系列重建技术,可以显著降低高复原误差,并发现最小化复原误差并非总是理想的,引入自动生成校准数据的策略以平衡复原和泛化之间的权衡,为剪枝大型语言模型的新方向提供了新思路。