小目标检测中的Transformer:现有技术的评估和调查
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR模型概念简单且不需要专门的库。
May, 2020
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文提出基于Transformer的新方法O²DETR,实现了复杂的有方向物体检测,无需旋转锚点,其性能表现明显优于Faster R-CNN和RetinaNet。
Jun, 2021
本论文介绍了ViDT,一个将视觉和检测Transformers整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的Transformer解码器来提高检测性能。ViDT在Microsoft COCO基准数据集上的广泛评估结果表明,它在现有的完全基于Transformer的目标检测器中具有最佳的AP和延迟平衡,并且可以实现高扩展性的大型模型,其AP为49.2。
Oct, 2021
本文介绍了Vision和Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。
Apr, 2022
本篇论文详细回顾了二十一篇相关的论文,讨论了最近在DETR中基于Transformer方法的研究进展,并涵盖了最新的改进,包括骨干网络改造,查询设计和注意力优化。同时,我们还比较了所有检测变压器的性能和网络设计。
Jun, 2023
通过在单一尺度特征上操作,基于Transformer的检测器SimPLR能够利用自监督学习和缩放方法,相对于多尺度对应物和纯主干结构检测器具有更强的性能,并且速度更快。
Oct, 2023
本文提出了一种简单而有效的基于Vision Transformer(ViT)的网络(SENet),通过采用一种基于不对称ViT的编码器-解码器结构的简单设计,在隐藏目标检测和显著目标检测两个任务上取得了有竞争力的结果,在精细设计的复杂网络上展现出更大的多样性。
Feb, 2024
本文回顾了近年来少样本目标检测(FSOD)领域的重要进展,总结了现有挑战和解决方案,通过提出一种新颖的FSOD分类方法和调查丰富的FSOD算法,得出了促进FSOD问题深入理解和创新解决方案发展的全面概述,并讨论了这些算法的优点和限制,总结了在数据匮乏场景中目标检测的挑战、潜在的研究方向和发展趋势。
Apr, 2024
本研究聚焦于解决传统目标检测方法对大量标注数据的依赖,并探讨了少样本目标检测(FSOD)的不同设置。文献综述提供了对多种FSOD方法的全面比较和分析,揭示了其在减少数据需求和提升模型适应能力方面的潜力与挑战。
Aug, 2024