Jan, 2021

基于瓶颈结构的 Transformer 用于视觉识别

TL;DRBoTNet 是一种基于自注意力机制的视觉模型,可以应用于图像分类、目标检测和实例分割,通过在 ResNet 的最后三个 bottleneck 块中使用自注意力代替空间卷积,能够大幅提高实例分割和目标检测的性能,同时减少参数量和计算开销。BoTNet 的设计表明 ResNet bottleneck 块中的自注意力可以视为 Transformer 块。在 COCO Instance Segmentation 基准测试中,BoTNet 能够取得 44.4% 的 Mask AP 和 49.7% 的 Box AP,超过了之前最佳单模型和单尺度结果 ResNeSt,同时在 ImageNet 基准测试中,BoTNet 的简单改进能够取得 84.7% 的 top-1 准确率,比 EfficientNet 在 TPU-v3 上计算速度快 1.64 倍。这一简单而有效的方法有望成为未来自注意力视觉模型研究的强有力基准。