Jan, 2024

FFSplit:一种用于优化语言模型推理精度和效率权衡的分割前馈网络

TL;DR优化预训练语言模型(PLM)在商用硬件上的部署,通过模型压缩技术提高效率,将 Feed-forward 网络划分为两部分以提高已有压缩方法的效果,并取得了可观的模型尺寸减小和推理速度提升的效果。