May, 2023

Zero-TPrune:基于预训练 Transformer 的注意力图优化进行零样本 Token 裁剪

TL;DR本文提出了首个零 - shot 的方法 Zero-TPrune,通过使用预先训练的 Transformer 模型的 attention 图来计算 token 的重要性和相似性,在保持高精度的前提下,大幅减少了模型的计算复杂度和推理时间。