Jun, 2021
DynamicViT:动态 Token 稀疏化的高效视觉 Transformers
DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification
TL;DR提出了一种动态的、基于输入的Token稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有CNN和Transformer模型,通过分层删减66%的输入元素,可以大大减少FLOPs、提高吞吐量。