基于 Transformer 预测头改进 YOLOv5 的计算机视觉损伤检测模型
TPH-YOLOv5 是一种基于 YOLOv5 的目标检测模型,包括添加预测头、采用自注意力机制的 Transformer 预测头和卷积块关注模型的集成,以及有效策略的利用。 在无人机捕获的场景中展现出了优秀的性能表现。
Aug, 2021
本文提出了一个增强的道路损伤检测方法,利用 CycleGAN 和改进的 YOLOv5 算法,通过数据增强方法、注意力机制和空洞空间金字塔池化等技术,成功实现了道路损伤的实时、准确检测,并在实际应用中取得了良好结果。
May, 2024
我们提出了基于 YOLOv5s 的改进目标检测方法 MFL-YOLO(互补特征级别损失增强 YOLO),通过设计简单的跨级别损失函数,使得模型的每个级别都具有自己的作用,有助于学习更多多样化的特征并提高细粒度。相比 YOLOv5s,我们的 MFL-YOLO 在 F1 得分和 mAP 上分别提高了 4.3 和 5.1,同时减少了 8.9% 的 FLOPs。Grad-CAM 热图可视化显示我们的模型能更好地关注损坏交通标志的局部细节。此外,我们还对 CCTSDB2021 和 TT100K 进行了实验证明我们模型的泛化性。
Sep, 2023
本研究提出了 YOLO9tr,一种基于深度学习的新型轻量级目标检测模型,用于道路损坏检测,其在特征提取和注意力机制方面引入了部分注意力块,以提高在复杂情况下的检测性能,并通过多国的道路损坏图像数据集进行训练,扩展了损坏分类范围,并与 YOLO8、YOLO9 和 YOLO10 等先进模型相比具有更高的精度和推断速度,达到高达 136FPS 的帧率,适用于实时应用,该研究进一步验证了部分注意力块的有效性,突出了 YOLO9tr 在实时道路状况监测中的潜力,为维护安全和功能良好的道路基础设施提供了稳健和高效的解决方案。
Jun, 2024
通过结合超分辨率和经过修改的轻量级 YOLOv5 架构,我们提出了一种创新的方法,用于在航空影像中准确检测小型密集目标,并通过一系列数据集的评估,证明该模型在高密度遮挡条件下能够实现更好的检测结果,从而为航空影像中的目标检测领域带来显著进展。
Jan, 2024
在小物体检测领域,针对计算代价大且预测性能有待提高的问题,提出了一种改进的 YOLOv5 模型:HIC-YOLOv5。它通过添加特定于小物体的额外预测头部以提供更高分辨率的特征图进行更精确的预测,采用了 involution 块在主干网和 neck 之间以增加特征图的通道信息,并在主干网的末端应用了一种名为 CBAM 的注意力机制,从而不仅减少了与先前方法相比的计算代价,还加强了通道和空间域中的重要信息。在 VisDrone-2019-DET 数据集上,HIC-YOLOv5 的 mAP@[.5:.95] 提高了 6.42%,[email protected] 提高了 9.38%。
Sep, 2023
本研究提出了一种神经网络模型,能够在无人机收集的热像图中识别小型和超小型目标。模型结构包括骨干网络、中间层和预测头,其中骨干网络基于 YOLOv5 结构,结尾使用了 Transformer 编码器。中间层采用了 BI-FPN 块以及滑动窗口和 Transformer 增加预测头的信息输入。预测头通过 Sigmoid 函数对特征图执行检测。Transformer 的注意力和滑动窗口的使用提高了识别准确性,同时保持了模型在嵌入式系统中的合理参数和计算需求。实验在公共数据集 VEDAI 和自己收集的数据集上进行,结果表明,与 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3 等最先进方法相比,本模型具有更高的准确度。在嵌入式计算机 Jetson AGX 上的实验表明,本模型实现了实时计算,并具有超过 90% 的稳定性率。
Feb, 2024
通过改进的 YOLOv5 火灾检测深度学习算法,可以有效地处理室内、室外和森林火灾图像中的火灾目标检测,并且可以在不同的自然光照条件下进行火灾检测。
Oct, 2023
在本研究中,我们提出了一种先进的 Gatherand-Distribute 机制(GD 机制),该机制借助卷积和自注意操作实现。我们设计的新模型 Gold-YOLO 在跨所有模型尺度上提升了多尺度特征融合能力并在延迟和准确性之间实现了理想的平衡。此外,我们首次在 YOLO 系列中实现了 MAE 风格的预训练,使得 YOLO 系列模型能够从无监督预训练中受益。Gold-YOLO-N 在 COCO val2017 数据集上取得了出色的 39.9% AP 和在 T4 GPU 上的 1030 FPS,超过了以前的 SOTA 模型 YOLOv6-3.0-N 的相似 FPS +2.4%。
Sep, 2023
基于 YOLOv5l 模型,本文提出了一种基于口罩佩戴的人脸检测模型。通过多头注意力自卷积和 Swin Transformer Block 的引入,提高了模型的检测准确性和收敛速度,并通过设计的 I-CBAM 模块和特征融合方法改善了不同尺度目标检测任务。实验证明,相比 YOLOv5l 模型,在 MASK 数据集上,本文模型的 mAP (0.5) 提升了 1.1%,mAP (0.5:0.95) 提升了 1.3%。本文提出的方法显著提升了口罩佩戴的检测能力。
Oct, 2023