面向害虫图像识别的 ROI 感知多尺度交叉注意力视觉变换器
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。
May, 2023
HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成,探索异构分支设计,减少线性层中的冗余并增强注意力块的表现力,从而在 ADE20K 和 Cityscapes 数据集达到 50.20%和 83.16%的 mIoU 优化性能和效率,比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU,参数节省 28%,FLOPs 减少 21%。
Nov, 2021
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
提出了一种多尺度补丁选择 (MSPS) 方法,以改善现有基于 Vision Transformers 的模型的多尺度能力。通过在多尺度 Vision Transformer 上的不同阶段选择不同尺度的显著补丁,并引入类令牌传递 (CTT) 和多尺度交叉注意力 (MSCA),以模拟选定的多尺度补丁之间的交叉尺度相互作用并完全反映在模型决策中,从而提高了特征分层的丰富物体表征并在多个广泛使用的细粒度视觉识别基准上优于 CNN-/ViT- 基模型的 M2Former。
Aug, 2023
我们提出了一个简单的附加注意力模块,通过多阶段和跨尺度的相互作用,克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足,从而显着提高了性能。
Aug, 2023
通过使用注意力权重来测量原始图像对应的补丁符记的重要性,我们提出了递归注意力多尺度转换器 (RAMS-Trans),它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。
Jul, 2021
本文提出了一个 RoI Transformer 模型用于解决在航拍图像中检测旋转目标时,水平建议区域(HRoI)和旋转建议区域(RRoI)之间可能会引入不匹配的问题。该模型具有轻复杂度和高性能,提出的模型在两种常见而具有挑战性的遥感数据集 DOTA 和 HRSC2016 上表现出了最先进的性能。
Dec, 2018
通过使用来自不同卫星传感器获取的图像,已经证实在卫星图像时间序列(SITS)的作物分布图框架中,可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发,我们引入了几种多模态多时序变换器架构。具体来说,我们研究了在时间空间视觉变换器(TSViT)中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明,相较于具有卷积和自注意组件的最新架构,我们的架构显著改善了性能。
Jun, 2024
本文提出了一种新型的多路径视觉 Transformer(MPViT),通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌,将令牌按比例分为多个分支,并对分支进行处理,从而获得丰富的、多尺度的特征表示,在各项指标上均优于当前其他前沿网络,具有广泛的应用前景。
Dec, 2021