GreedyViG:用于高效视觉 GNN 的动态轴图构建
本文提出了一种新颖的基于图的稀疏注意力机制 Sparse Vision Graph Attention(SVGA),并且设计了一种新的混合 CNN-GNN 体系结构 MobileViG,实验证明,MobileViG 在移动设备上进行图像分类、物体检测和实例分割任务上的精度和 / 或速度明显优于现有的 ViG 模型和现有移动 CNN 和 ViT 架构。
Jul, 2023
本文提出了将图像表示为图结构,并介绍了一种新的 Vision GNN(ViG)体系结构,用于提取视觉任务的图级特征。ViG 由 Grapher 模块和 FFN 模块组成,可用于图形聚合、更新图形信息以及节点特征变换。该体系结构在图像识别和目标检测任务方面表现出优异性能,并希望将来的研究能够从中获得启发。
Jun, 2022
通过逐渐增加全局图分支的通道并减少局部分支的通道,逐渐分离图构建(PSGC)引入二阶相似性,使用最大池化和数学期望(MaxE)进行富信息邻居节点信息聚合和更新,以减轻过度平滑的图错误线性单元(GraphLU)增强松弛形式的低值信息,实验证明 PVG 在图像识别任务中优于现有方法。
Aug, 2023
MobileViGv2 使用 Mobile Graph Convolution (MGC) 模块来解决模型尺寸扩展问题,通过增加图稀疏性和引入条件位置编码到图操作中,提高了在图像分类等任务中的准确性。
Jun, 2024
本研究提出了一种新颖的注视导向视觉图神经网络(称为 GD-ViG),通过利用注视的视觉模式将网络引导到与疾病相关的区域,并从而减轻了快捷学习。该网络在医学图像分析中取得了优异的表现,比最新的方法更有效地减少了快捷学习问题。
Jun, 2024
在计算机视觉任务中,线性复杂度序列建模网络达到了与 Vision Transformers 相似的建模能力,同时使用更少的 FLOPs 和内存。然而,它们在实际运行时速度方面的优势并不显著。为了解决这个问题,我们引入了适用于视觉的门控线性注意力(GLA),利用它的硬件感知和高效性。我们提出了方向性门控,通过双向建模来捕捉一维全局上下文,并通过二维门控局部注入来自适应地将二维局部细节注入一维全局上下文。我们的硬件感知实现将正向扫描和反向扫描合并为单个核心,增强了并行性,减少了内存成本和延迟。所提出的模型 ViG 在 ImageNet 和下游任务中在准确性、参数和 FLOPs 上取得了有利的权衡,优于流行的 Transformer 和基于 CNN 的模型。值得注意的是,ViG-S 仅使用参数的 27% 和 FLOPs 的 20%,在 224x224 大小的图像上运行速度比 DeiT-B 快 2 倍。在 1024x1024 分辨率下,ViG-T 使用的 FLOPs 比 DeiT-T 少了 5.2 倍,节省了 90% 的 GPU 内存,运行速度快了 4.8 倍,并且相比 DeiT-T 的 top-1 准确率高出 20.7%。这些结果使 ViG 成为一种高效且可扩展的视觉表示学习解决方案。代码可在 https://github.com/hustvl/ViG 找到。
May, 2024
该研究论文提出了 EvGNN,这是第一个用于边缘视觉的事件驱动 GNN 加速器,通过利用定向动态图、事件队列和新颖的层并行处理方案,实现了边缘视觉的低内存占用、超低延迟和高准确性,从而实现了实时的微秒级分辨率事件驱动视觉。
Apr, 2024
卫星任务和地球观测系统对于环境监测和及时发现灾难性事件以及长期监测自然资源和人造资产如植被、水体、森林和建筑物方面具有基础性作用。近期机器学习、计算机视觉的进展以及标注数据的可用性使得研究人员通过使用深度神经网络展示了在土地利用监测系统和遥感图像分类方面的可行性和精确性。该研究调查了一种最新的视觉图神经网络架构(ViG)在土地覆盖分类任务中的性能,并实验结果显示 ViG 在多类别和多标签分类背景下的表现超过了 ViT 和 ResNet 在大规模基准测试中的最新水平。
Feb, 2024