CVPRMar, 2024

少样本下的稠密视觉 Transformer 压缩

TL;DR这篇论文提出了一种名为 DC-ViT 的少样本 Vision Transformer 压缩框架,通过有选择性地消除注意力模块并保留和重用 MLP 模块的部分来实现稠密压缩,使得输出的压缩模型数量丰富,覆盖了多种模型复杂度范围,相比最先进的少样本压缩方法在 Vision Transformer 及其变种的压缩中,性能提升了 10 个百分点,并且具有更低的延迟。