面向高性能目标检测的研究：基于 ViT 和基于 CNN 的深度学习模型的无人机检测的洞察

Aug, 2023

面向高性能目标检测的研究：基于 ViT 和基于 CNN 的深度学习模型的无人机检测的洞察

Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models

Junyang Zhang

TL;DR使用无人机数据集以及卷积神经网络（CNN）和视觉变换器（ViT）模型，本文重新评估了准确的无人机检测任务，表明基本的 ViT 模型在单一无人机检测方面的性能比最佳 CNN 迁移学习模型提升了 4.6 倍，并且通过多无人机检测实现了令人印象深刻的 98% 和 96% 的 mAP 值。作者总结了 ViT 和 CNN 模型的独特特点，以帮助未来研究者开发更高效的深度学习模型。

Abstract

Accurate drone detection is strongly desired in drone collision avoidance, drone defense and autonomous Unmanned Aerial Vehicle (UAV) self-landing. With the recent emergence of the vision transformer (ViT), this

drone detection vision transformer cnn-based models vit-based models multi-drone detection

发现论文，激发创造

YOLO-Drone: 高空实时检测密集小物体

研究提出了一种新的实时目标检测算法 YOLO-Drone，应用于两种新的无人机平台和特定光源，在 UAVDT 和 VisDrone 两个基准数据集以及夜间采集的自制数据集中表现优于现有的状态 - of-the-art 方法，并且在硅基金光 LED 下的性能表现明显优于普通光源，证明了该算法对无人机领域中的目标检测特别是夜间检测任务具有高效的解决方案。

Apr, 2023

针对航空图片的 YOLOv4 目标检测分析与改进

本文介绍了一种基于 YOLOv4 的计算机视觉算法，可以快速准确地检测无人机航拍图像中的目标物体，可应用于实时监测等领域。

Mar, 2022

从模糊到清晰的检测：基于 YOLOv5 的航空目标检测与超分辨率

通过结合超分辨率和经过修改的轻量级 YOLOv5 架构，我们提出了一种创新的方法，用于在航空影像中准确检测小型密集目标，并通过一系列数据集的评估，证明该模型在高密度遮挡条件下能够实现更好的检测结果，从而为航空影像中的目标检测领域带来显著进展。

Jan, 2024

无人机实时人体检测

本研究提出了一种适用于无人机热红外图片和视频的目标检测框架，基于 CNN 架构的 YOLO 模型，通过定量和定性评估深度学习模型，在人的交叉检测性能方面展示了 YOLOv7 模型在不同无人机观察角度下的应用。

Jan, 2024

无人机热图中使用深度学习进行目标检测

本研究提出了一种神经网络模型，能够在无人机收集的热像图中识别小型和超小型目标。模型结构包括骨干网络、中间层和预测头，其中骨干网络基于 YOLOv5 结构，结尾使用了 Transformer 编码器。中间层采用了 BI-FPN 块以及滑动窗口和 Transformer 增加预测头的信息输入。预测头通过 Sigmoid 函数对特征图执行检测。Transformer 的注意力和滑动窗口的使用提高了识别准确性，同时保持了模型在嵌入式系统中的合理参数和计算需求。实验在公共数据集 VEDAI 和自己收集的数据集上进行，结果表明，与 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3 等最先进方法相比，本模型具有更高的准确度。在嵌入式计算机 Jetson AGX 上的实验表明，本模型实现了实时计算，并具有超过 90% 的稳定性率。

Feb, 2024

FusionViT: 基于 LiDAR - 相机视觉变换的层次化 3D 物体检测

通过 FusionViT 模型，在 KITTI 和 Waymo Open 数据集上进行了大量实验，实现了最先进的性能，并且优于仅依赖于相机图像或 Lidar 点云以及最新的多模态图像 - 点云深度融合方法。

Nov, 2023

SyNet：用于无人机图像目标检测的集成网络

本文提出了一个结合单步检测和多步检测优点的集成网络 SyNet，该方案在两个不同的数据集中均获得了最先进的结果。

Dec, 2020

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

用于濒危动物种群监测的多物种目标检测无人机图像系统

动物种群数量急剧下降，精确计数濒危物种的技术对于长期监测种群变化至关重要。本研究侧重于优化用于无人机图像的目标检测模型，以创建准确的动物物种计数。通过使用无人机拍摄的数百张图片和大量可获取的无人机图像数据集，我们将传统的 YOLOv8 架构进行了优化。我们训练了 30 个不同的模型，其中最大的模型具有 4370 万个参数和 365 个层，并利用超参数调整和数据增强技术来提高准确性。尽管最先进的 YOLOv8 基线在野生动物数据集上只有 0.7％的准确性，但我们的模型在相同数据集上达到 95％的准确性。最后，我们将模型部署在 Jetson Orin Nano 上，演示了低功耗实时物种检测，便于在无人机上进行推断。

Jun, 2024

无人机类型集：用于无人机检测和追踪的无人机类型检测基准

通过开发人工智能技术，本研究提供了一个包含不同类型未经授权的无人机数据集，用于比较各种被识别的目标检测模型，并提供了实验结果和方法描述。

May, 2024