面向害虫图像识别的 ROI 感知多尺度交叉注意力视觉变换器

Dec, 2023

面向害虫图像识别的 ROI 感知多尺度交叉注意力视觉变换器

ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image Identification

Ga-Eun Kim, Chang-Hwan Son

TL;DR在这篇论文中，我们提出了一种新颖的 ROI 视觉转换方法（ROI-ViT），通过多尺度交叉注意力融合生成和更新感兴趣区域（ROIs），从而解决了识别有害生物时的复杂背景和尺度问题，实验结果表明该方法相比其他先进模型表现更好，特别是在具有复杂背景和小尺寸的新数据集上保持了高的识别准确率。

Abstract

The pests captured with imaging devices may be relatively small in size compared to the entire images, and complex backgrounds have colors and textures similar to those of the pests, which hinders accurate feature extraction and makes pest identification challenging. The key to

pest identification rois multiscale cross-attention fusion roi-vit complex background

发现论文，激发创造

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

区域感知预训练与视觉 Transformer 实现开放式目标检测

提出了一种区域感知的开放词汇视觉 Transformer（RO-ViT）预训练方法，其中使用区域级别的位置嵌入来代替整个图像位置嵌入，取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。

May, 2023

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

M2Former：多尺度细粒度视觉识别的补丁选择

提出了一种多尺度补丁选择 (MSPS) 方法，以改善现有基于 Vision Transformers 的模型的多尺度能力。通过在多尺度 Vision Transformer 上的不同阶段选择不同尺度的显著补丁，并引入类令牌传递 (CTT) 和多尺度交叉注意力 (MSCA)，以模拟选定的多尺度补丁之间的交叉尺度相互作用并完全反映在模型决策中，从而提高了特征分层的丰富物体表征并在多个广泛使用的细粒度视觉识别基准上优于 CNN-/ViT- 基模型的 M2Former。

Aug, 2023

多阶段跨尺度注意力的视觉骨干增强

我们提出了一个简单的附加注意力模块，通过多阶段和跨尺度的相互作用，克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足，从而显着提高了性能。

Aug, 2023

RAMS-Trans: 基于循环注意力多尺度变换器进行细粒度图像识别

通过使用注意力权重来测量原始图像对应的补丁符记的重要性，我们提出了递归注意力多尺度转换器 (RAMS-Trans)，它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。

Jul, 2021

学习 RoI Transformer 在航拍图像中检测有方向物体

本文提出了一个 RoI Transformer 模型用于解决在航拍图像中检测旋转目标时，水平建议区域（HRoI）和旋转建议区域（RRoI）之间可能会引入不匹配的问题。该模型具有轻复杂度和高性能，提出的模型在两种常见而具有挑战性的遥感数据集 DOTA 和 HRSC2016 上表现出了最先进的性能。

Dec, 2018

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021