Apr, 2021

LeViT: 一个穿着 ConvNet 外衣的视觉 Transformer 用于更快的推理

TL;DR本文介绍了 LeViT:一个用于快速推理图像分类的混合神经网络,它利用了最近在具有高度并行处理硬件竞争力的注意力架构中的发现,重新审视了卷积神经网络文献中的原则以将它们应用于 transformers,特别是带有分辨率降低的激活映射,还引入了一种新的方式来将位置信息集成到 vision transformers 中的注意偏差。