Jun, 2021

只看一个序列:通过目标检测重新思考视觉 Transformer

TL;DR本文通过YOLOS模型系列探讨Transformer在2D对象和区域级别识别上的性能,并发现在中型ImageNet-1k数据集上预训练的YOLOS模型已经可以在COCO目标检测基准测试中实现相当竞争的性能。同时,作者还讨论了当前的预训练模式和模型尺度策略以及YOLOS模型的影响和局限性。