ICLRMar, 2024

加速需求:一种修剪变换器的方法

TL;DR一种用于提高预训练变换器体系结构效率的 OPTIN 框架,通过中间特征蒸馏捕捉模型参数的长程依赖(称为轨迹),在不需要重新训练的情况下在自然语言、图像分类、迁移学习和语义分割任务方面产生最先进的结果。同时,在满足 FLOP 限制的情况下,OPTIN 框架将网络进行压缩,保持竞争性准确性性能和提高吞吐量。