使用定向窗口学习视觉变换器的目标检测:道路资产识别
本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术,使用五种 ViT 初始化方法进行实验比较,结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进,随着模型大小的增加,这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。
Nov, 2021
本论文介绍了 ViDT,一个将视觉和检测 Transformers 整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明,它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡,并且可以实现高扩展性的大型模型,其 AP 为 49.2。
Oct, 2021
该研究论文解决了自动驾驶车辆和驾驶辅助系统中与交通标志检测相关的挑战,特别关注使用 Transformer 模型来提高检测的速度和准确性。
Nov, 2023
基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。
Aug, 2023
本文介绍了 Vision 和 Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。
Apr, 2022
提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。
May, 2023
本研究通过综合评估 Vision Transformers 在 X 射线图像中的非法物品检测上的相关架构,包括 Transformer 和混合骨干,如 SWIN 和 NextViT,以及检测器,如 DINO 和 RT-DETR,结果表明 DINO Transformer 检测器在低数据情况下的显著准确性,YOLOv8 的出色实时性能以及混合的 NextViT 骨干的有效性。
Mar, 2024
通过 FusionViT 模型,在 KITTI 和 Waymo Open 数据集上进行了大量实验,实现了最先进的性能,并且优于仅依赖于相机图像或 Lidar 点云以及最新的多模态图像 - 点云深度融合方法。
Nov, 2023
对于开放世界的部署,目标检测器检测和标记新对象的能力对很多实际应用非常关键。本研究提出了一种名为 Open-Set Object Detection and Discovery (OSODD) 的新任务,并且提出了一种称为 Open-Set Regions with ViT features (OSR-ViT) 的检测框架作为解决方案,该框架将无类别假设的倡议网络与强大的 ViT-based 分类器相结合。我们的评估结果表明,OSR-ViT 在性能上远超过现有的有监督方法,并且在低数据场景中表现出色,即使使用少量的训练数据也能优于有监督基线模型。
Apr, 2024
利用人工智能从高分辨率航拍影像中自动提取出 FL 州公路的地理特征,并与地面实测数据对比,平均准确率达到了 80.4%,提供了有价值的洞察力给政策制定者和道路使用者。
Jun, 2024