May, 2023
Zero-TPrune:基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪
Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers
Hongjie Wang, Bhishma Dedhia, Niraj K. Jha
TL;DR本文提出了首个零 - shot 的方法 Zero-TPrune,通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性,在保持高精度的前提下,大幅减少了模型的计算复杂度和推理时间。