May, 2023

Infor-Coef: 基于信息瓶颈的动态 Token 下采样方法,用于紧凑高效的语言模型

TL;DR本文提出了Infor-Coef模型使得在NLP领域中,使用动态降采样和静态剪枝的方法,通过信息瓶颈损失进行优化,实现了18倍的计算速度提升,精度下降不到8%,为压缩和加速基于Transformer的模型提供了一种有前途的方法。