ICLRApr, 2022

一种可扩展、高效、有效的基于 Transformer 的物体检测器

TL;DR本文介绍了 Vision 和 Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。