Jan, 2021
基于瓶颈结构的Transformer用于视觉识别
Bottleneck Transformers for Visual Recognition
TL;DRBoTNet是一种基于自注意力机制的视觉模型,可以应用于图像分类、目标检测和实例分割,通过在ResNet的最后三个bottleneck块中使用自注意力代替空间卷积,能够大幅提高实例分割和目标检测的性能,同时减少参数量和计算开销。BoTNet的设计表明ResNet bottleneck块中的自注意力可以视为Transformer块。在COCO Instance Segmentation基准测试中,BoTNet能够取得44.4%的Mask AP和49.7%的Box AP,超过了之前最佳单模型和单尺度结果ResNeSt,同时在ImageNet基准测试中,BoTNet的简单改进能够取得84.7%的top-1准确率,比EfficientNet在TPU-v3上计算速度快1.64倍。这一简单而有效的方法有望成为未来自注意力视觉模型研究的强有力基准。