基于Transformer的目标检测
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR模型概念简单且不需要专门的库。
May, 2020
本文研究使用Transformer代替CNN进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本论文介绍了ViDT,一个将视觉和检测Transformers整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的Transformer解码器来提高检测性能。ViDT在Microsoft COCO基准数据集上的广泛评估结果表明,它在现有的完全基于Transformer的目标检测器中具有最佳的AP和延迟平衡,并且可以实现高扩展性的大型模型,其AP为49.2。
Oct, 2021
本文综述了超过一百种不同的视觉Transformer根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉Transformers在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本文提出了一种简单的视觉Transformer设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
本研究重新审视设计空间,逐步将标准ResNet现代化为Vision Transformer的设计,发现了几个关键组件,并发现纯ConvetNets模型家族ConvNeXt可以在精度和可伸缩性方面与Transformer竞争,在ImageNet的top-1准确率方面达到了87.8%,并在COCO检测和ADE20K分割上优于Swin Transformer 。
Jan, 2022
本文介绍了Vision和Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。
Apr, 2022
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023