Oct, 2021

ViDT:一种高效且有效的全Transformer目标检测器

TL;DR本论文介绍了ViDT,一个将视觉和检测Transformers整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的Transformer解码器来提高检测性能。ViDT在Microsoft COCO基准数据集上的广泛评估结果表明,它在现有的完全基于Transformer的目标检测器中具有最佳的AP和延迟平衡,并且可以实现高扩展性的大型模型,其AP为49.2。