Jun, 2021

DynamicViT:动态 Token 稀疏化的高效视觉 Transformers

TL;DR提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。