使用定向窗口学习视觉变换器的目标检测：道路资产识别

Jun, 2024

使用定向窗口学习视觉变换器的目标检测：道路资产识别

Object Detection using Oriented Window Learning Vi-sion Transformer: Roadway Assets Recognition

Taqwa Alhadidi, Ahmed Jaber, Shadi Jaradat, Huthaifa I Ashqar, Mohammed Elhenawy

TL;DR利用 OWL-ViT 方法在智能交通系统中实现道路资产检测的研究表明，在各种情况下，OWL-ViT 具有高效率和可靠性，强调其提升智能交通系统安全和效率的潜力。

Abstract

object detection is a critical component of transportation systems, particularly for applications such as autonomous driving, traffic monitoring, and infrastructure maintenance. Traditional →

object detection transportation systems owl-vit roadway asset detection intelligent transportation systems

发现论文，激发创造

使用 Vision Transformers 对检测迁移学习进行基准测试

本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术，使用五种 ViT 初始化方法进行实验比较，结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进，随着模型大小的增加，这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。

Nov, 2021

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

高效视觉 Transformer 用于准确的交通标志检测

该研究论文解决了自动驾驶车辆和驾驶辅助系统中与交通标志检测相关的挑战，特别关注使用 Transformer 模型来提高检测的速度和准确性。

Nov, 2023

Video OWL-ViT：视频中的时间一致性开放世界定位

基于 OWL-ViT 模型，我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位，从而实现了更好的时间一致性和更强的开放世界能力。

Aug, 2023

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

区域感知预训练与视觉 Transformer 实现开放式目标检测

提出了一种区域感知的开放词汇视觉 Transformer（RO-ViT）预训练方法，其中使用区域级别的位置嵌入来代替整个图像位置嵌入，取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。

May, 2023

使用 Vision Transformers 进行 X 光图像中的非法物体检测

本研究通过综合评估 Vision Transformers 在 X 射线图像中的非法物品检测上的相关架构，包括 Transformer 和混合骨干，如 SWIN 和 NextViT，以及检测器，如 DINO 和 RT-DETR，结果表明 DINO Transformer 检测器在低数据情况下的显著准确性，YOLOv8 的出色实时性能以及混合的 NextViT 骨干的有效性。

Mar, 2024

FusionViT: 基于 LiDAR - 相机视觉变换的层次化 3D 物体检测

通过 FusionViT 模型，在 KITTI 和 Waymo Open 数据集上进行了大量实验，实现了最先进的性能，并且优于仅依赖于相机图像或 Lidar 点云以及最新的多模态图像 - 点云深度融合方法。

Nov, 2023

OSR-ViT：开放式目标检测与发现的简洁模块化框架

对于开放世界的部署，目标检测器检测和标记新对象的能力对很多实际应用非常关键。本研究提出了一种名为 Open-Set Object Detection and Discovery (OSODD) 的新任务，并且提出了一种称为 Open-Set Regions with ViT features (OSR-ViT) 的检测框架作为解决方案，该框架将无类别假设的倡议网络与强大的 ViT-based 分类器相结合。我们的评估结果表明，OSR-ViT 在性能上远超过现有的有监督方法，并且在低数据场景中表现出色，即使使用少量的训练数据也能优于有监督基线模型。

Apr, 2024

基于计算机视觉的佛罗里达公共道路转向车道特征检测模型

利用人工智能从高分辨率航拍影像中自动提取出 FL 州公路的地理特征，并与地面实测数据对比，平均准确率达到了 80.4％，提供了有价值的洞察力给政策制定者和道路使用者。

Jun, 2024