Jan, 2024

YOLO-Former: YOLO 与 ViT 的结合

TL;DRYOLO-Former 方法将 Transformer 和 YOLOv4 的思想无缝集成,创建了一个高度准确和高效的目标检测系统。该方法通过将卷积注意力和 Transformer 模块整合,利用 YOLOv4 的快速推理速度并融合 Transformer 架构的优势,实现了高度准确性,输出了一帧率为 10.85 帧每秒,Pascal VOC 数据集上均值平均精度(mAP)达到了 85.76%。本工作的贡献在于展示了这两种最先进技术的创新组合如何进一步提高目标检测领域的性能。