KDDJun, 2023

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

TL;DR本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP,可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明,ToP 优于现有的令牌剪枝和模型压缩方法,并提供高达 7.4 倍的实际延迟加速。