Feb, 2024

基于梯度自由的自适应全局修剪预训练语言模型

TL;DR通过重新定义全局修剪过程为可管理的、协调的子问题,并利用辅助变量进行问题分解,AdaGP 框架在 LLMs 上展示了重要的性能提升,特别是在高稀疏度范围内超越了当前最先进的方法。