Oct, 2023

SHARCS: 通过动态宽度子网络进行有效的 Transformer 路由

TL;DRSHARCS 是一种自适应推理方法,通过考虑输入样本的难度,训练了一个路由器来将不同样本定向到具有不同宽度的子网络,实验证明,SHARCS 在准确性与 FLOPs 方面优于或补充了现有的逐样本自适应推理方法,能够泛化到不同的架构,甚至应用于压缩和高效的 Transformer 编码器以进一步提高其效率,并且能够在几乎不损失准确性的情况下提供 2 倍的推理加速。