使用 Vision Transformers 进行 X 光图像中的非法物体检测
自动检测 X 射线图像中的违禁物品可以显著增加公共安全,提高机场、地铁、海关 / 邮局等地的安全人员的工作效率,并减轻其心理负担。研究表明,变压器检测器优越于过去几年为安全应用开发的辅助神经模块和 CSP-DarkNet 骨干卷积神经网络十分高效。
Oct, 2023
本文提出了一种改进的基于深度神经网络的自动化 X 射线图像检测方法,通过使用更高效的框和修改默认 NMS 算法实现更准确的物体检测,突显了大数据分析在提高公共安全方面的潜力。
May, 2023
本论文介绍了 ViDT,一个将视觉和检测 Transformers 整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明,它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡,并且可以实现高扩展性的大型模型,其 AP 为 49.2。
Oct, 2021
本文介绍了 Vision 和 Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。
Apr, 2022
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
近年来,深度伪造技术的快速发展在降低伪造成本和提高质量的同时引发了关于侵犯个人权利、国家安全威胁和公共安全风险等紧迫问题。本文综述了基于 Vision Transformer(ViT)的深度伪造检测模型,并将其分为独立的、顺序的和并行的架构。此外,它简明扼要地描绘了每个模型的结构和特点,通过分析现有研究和探讨未来发展方向,旨在为研究人员提供对 ViT 在深度伪造检测中关键作用的细致理解,为学术和实践领域提供有价值的参考。
May, 2024
本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测,发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020
本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法,并在 DeepFake Detection Challenge Dataset 上进行了实验,取得了 91.5%的准确度、0.91 的 AUC 值和 0.32 的损失值。
Feb, 2021
本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术,使用五种 ViT 初始化方法进行实验比较,结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进,随着模型大小的增加,这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。
Nov, 2021
本研究提出了一种神经网络模型,能够在无人机收集的热像图中识别小型和超小型目标。模型结构包括骨干网络、中间层和预测头,其中骨干网络基于 YOLOv5 结构,结尾使用了 Transformer 编码器。中间层采用了 BI-FPN 块以及滑动窗口和 Transformer 增加预测头的信息输入。预测头通过 Sigmoid 函数对特征图执行检测。Transformer 的注意力和滑动窗口的使用提高了识别准确性,同时保持了模型在嵌入式系统中的合理参数和计算需求。实验在公共数据集 VEDAI 和自己收集的数据集上进行,结果表明,与 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3 等最先进方法相比,本模型具有更高的准确度。在嵌入式计算机 Jetson AGX 上的实验表明,本模型实现了实时计算,并具有超过 90% 的稳定性率。
Feb, 2024