基于 Transformer 和 Tensor Product 的学生情感识别的多模态融合网络

Mar, 2024

基于 Transformer 和 Tensor Product 的学生情感识别的多模态融合网络

A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product

Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma

TL;DR利用 FasterNet 和注意机制改进了 YOLOv5 架构，提高了对火车道和机场跑道上外来物体的检测能力，通过新数据集 AARFOD（航空铁路外来物体检测）证明了该模型相对于基准 YOLOv5 模型在性能上的显著提升，并降低了计算需求。

Abstract

In recent years, there have been frequent incidents of foreign objects intruding into railway and airport runways. These objects can include pedestrians, vehicles, animals, and debris. This paper introduces an improved

foreign objects detection yolov5 architecture railways airport runways aarfod dataset

发现论文，激发创造

基于注意力机制和 FasterNet 的改进 YOLOv5 用于铁路和航空轨道上的外来物体检测

该研究介绍了一种改进的 YOLOv5 架构，结合 FasterNet 和注意机制来增强对铁路和机场跑道上的异物的检测。还提出了一个新的数据集 AARFOD，该数据集旨在改善异物目标的识别能力。在大型数据集上的实验结果表明，该模型相比基准的 YOLOv5 模型，在精确率、召回率和 [email protected] 方面都有显著的性能提升，同时减少了约 25.12% 的参数和约 10.63% 的 GFLOPs。通过消融实验，发现 FasterNet 模块可以显著减少模型的参数数量，而注意机制的参考可以减缓轻量化带来的性能损失。

Mar, 2024

无人机热图中使用深度学习进行目标检测

本研究提出了一种神经网络模型，能够在无人机收集的热像图中识别小型和超小型目标。模型结构包括骨干网络、中间层和预测头，其中骨干网络基于 YOLOv5 结构，结尾使用了 Transformer 编码器。中间层采用了 BI-FPN 块以及滑动窗口和 Transformer 增加预测头的信息输入。预测头通过 Sigmoid 函数对特征图执行检测。Transformer 的注意力和滑动窗口的使用提高了识别准确性，同时保持了模型在嵌入式系统中的合理参数和计算需求。实验在公共数据集 VEDAI 和自己收集的数据集上进行，结果表明，与 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3 等最先进方法相比，本模型具有更高的准确度。在嵌入式计算机 Jetson AGX 上的实验表明，本模型实现了实时计算，并具有超过 90% 的稳定性率。

Feb, 2024

金 - YOLO：通过聚集与分发机制实现高效物体检测

在本研究中，我们提出了一种先进的 Gatherand-Distribute 机制（GD 机制），该机制借助卷积和自注意操作实现。我们设计的新模型 Gold-YOLO 在跨所有模型尺度上提升了多尺度特征融合能力并在延迟和准确性之间实现了理想的平衡。此外，我们首次在 YOLO 系列中实现了 MAE 风格的预训练，使得 YOLO 系列模型能够从无监督预训练中受益。Gold-YOLO-N 在 COCO val2017 数据集上取得了出色的 39.9％ AP 和在 T4 GPU 上的 1030 FPS，超过了以前的 SOTA 模型 YOLOv6-3.0-N 的相似 FPS +2.4％。

Sep, 2023

Fostc3net: 一个基于网络结构优化的轻量级 YOLOv5

本文介绍了一种针对移动设备的增强轻量级 YOLOv5 技术，用于识别与输电线相关的物体。该方法通过引入 C3Ghost 模块和 FasterNet 模块改进了 YOLOv5 的性能，并采用 wIoU v3 LOSS 损失函数解决了数据集中简单和挑战样本的不平衡问题。实验证明，与现有的 YOLOv5 相比，该模型在检测准确性上提高了 1%，降低了 13% 的 FLOPs，模型参数减少了 26%。而在消融实验中，Fastnet 模块和 CSghost 模块提高了原始 YOLOv5 基准模型的精度，但导致了 [email protected] 度量的下降，而 wIoUv3 损失函数的改进显著减轻了该度量的下降。

Mar, 2024

YOLO-FEDER FusionNet：一种用于无人机检测的新型深度学习架构

通过将通用目标检测算法与专门的伪装物体检测技术相结合，我们引入了一种名为 YOLO-FEDER FusionNet 的创新深度学习架构，提高了无人机检测能力，通过全面评估证明了该模型的高效性，并在减少漏检和误报方面取得了显著的改进。

Jun, 2024

EYNet：用于遥感图像机场检测的扩展 YOLO

本文提出了一种基于 YOLOV3 和 ShearLet 变换的机场检测方案，使用 MobileNet 和 ResNet18 作为基础网络并重训，同时考虑了 ShearLet 滤波器和新颖的检测子网络结构，实验结果在 DIOR 数据集上表现出明显的优越性。

Mar, 2022

YOLOv8 实时飞行物体检测

本文提出了一种广义飞行物实时检测模型，可用于迁移学习和进一步研究，同时提出了一种可用于实现的改进模型。通过将第一通用模型训练在包含 40 种不同类别的飞行物数据集上，我们可以使模型提取抽象特征表示，然后在代表真实世界环境的数据集上执行传递学习，从而生成改进的模型，并且我们尝试使用当前最先进的单发探测器 YOLOv8 来解决一些出现的挑战。最后得到的模型达到了 0.685 的 mAP50-95 和 50fps 的平均推断速度。

May, 2023

使用 YOLOv5 从图像和视频中进行火灾检测

通过改进的 YOLOv5 火灾检测深度学习算法，可以有效地处理室内、室外和森林火灾图像中的火灾目标检测，并且可以在不同的自然光照条件下进行火灾检测。

Oct, 2023

基于 Transformer 预测头改进 YOLOv5 的计算机视觉损伤检测模型

提出了一种基于 DenseNet 块和 CBAM 的实时深度学习伤害检测模型，采用先进的自我注意机制实现多尺度目标检测，并减少计算复杂度，结果显示该模型性能优于当前最先进模型，是准确和鲁棒的机器人在现实场景下实现自动化损坏检测系统的重要一步。

Mar, 2023

YOLO-Former: YOLO 与 ViT 的结合

YOLO-Former 方法将 Transformer 和 YOLOv4 的思想无缝集成，创建了一个高度准确和高效的目标检测系统。该方法通过将卷积注意力和 Transformer 模块整合，利用 YOLOv4 的快速推理速度并融合 Transformer 架构的优势，实现了高度准确性，输出了一帧率为 10.85 帧每秒，Pascal VOC 数据集上均值平均精度（mAP）达到了 85.76％。本工作的贡献在于展示了这两种最先进技术的创新组合如何进一步提高目标检测领域的性能。

Jan, 2024