Dec, 2023

SPT:使用稀疏化高效微调基于Transformer的语言模型

TL;DR我们提出了SPT系统,通过引入稀疏性来高效地微调基于Transformers的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达50%,加速微调速度高达2.2倍。