为移动视觉扩展图卷积
本文提出了一种新颖的基于图的稀疏注意力机制 Sparse Vision Graph Attention(SVGA),并且设计了一种新的混合 CNN-GNN 体系结构 MobileViG,实验证明,MobileViG 在移动设备上进行图像分类、物体检测和实例分割任务上的精度和 / 或速度明显优于现有的 ViG 模型和现有移动 CNN 和 ViT 架构。
Jul, 2023
通过逐渐增加全局图分支的通道并减少局部分支的通道,逐渐分离图构建(PSGC)引入二阶相似性,使用最大池化和数学期望(MaxE)进行富信息邻居节点信息聚合和更新,以减轻过度平滑的图错误线性单元(GraphLU)增强松弛形式的低值信息,实验证明 PVG 在图像识别任务中优于现有方法。
Aug, 2023
利用动态轴图构建(DAGC)和 GreedyViG 的混合 CNN-GNN 架构,在图像分类等任务中实现了高精度,GMACs 减少,参数数量相似的效果,超过了现有的视觉图神经网络模型。
May, 2024
本文提出了将图像表示为图结构,并介绍了一种新的 Vision GNN(ViG)体系结构,用于提取视觉任务的图级特征。ViG 由 Grapher 模块和 FFN 模块组成,可用于图形聚合、更新图形信息以及节点特征变换。该体系结构在图像识别和目标检测任务方面表现出优异性能,并希望将来的研究能够从中获得启发。
Jun, 2022
本文提出了一种新型的纯 ConvNet 架构,即 MogaNet,该架构通过游戏论反映了不同尺度的情境下变量之间的相互作用效应,采用深度卷积优化了空间和通道空间的中阶信息,从而在 ImageNet 等多种典型视觉基准上取得了与最先进模型相当的效果,并以更高的效率使用参数。
Nov, 2022
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
PointViG 是一种高效的点云分析框架,使用轻量级图卷积模块提高局部特征聚合效果并减轻过度平滑问题,在大规模点云场景中采用自适应扩张图卷积技术提高计算效率,并且在性能和复杂度方面达到与先进模型相当的表现。
Jul, 2024
本文提出了一种名为 MSCG-Net 的新型架构,用于语义分割,在最新提出的 Self-Constructing Graph(SCG)模块上构建,通过利用多个视图来明确地利用空中图像的旋转不变性,进一步开发了一个自适应类加权损失来处理类别不平衡问题,证明了所提出方法的有效性和灵活性,与相关纯 CNN 比较,我们的模型在 Agriculture-Vision 挑战数据集上实现了非常有竞争力的结果(0.547 mIoU),并且具有更少的参数和更低的计算成本。
Apr, 2020
在计算机视觉任务中,线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力,同时使用更少的 FLOPs 和内存。然而,它们在实际运行时速度方面的优势并不显著。为了解决这个问题,我们引入了适用于视觉的门控线性注意力(GLA),利用它的硬件感知和高效性。我们提出了方向性门控,通过双向建模来捕捉一维全局上下文,并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心,增强了并行性,减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡,优于流行的 Transformer 和基于 CNN 的模型。值得注意的是,ViG-S 仅使用参数的 27% 和 FLOPs 的 20%,在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下,ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍,节省了 90% 的 GPU 内存,运行速度快了 4.8 倍,并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。
May, 2024
MobileViT 使用卷积神经网络和视觉 transformer 结合,提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题,其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。
Sep, 2022