RepViT-SAM:面向实时分割任意物体
该论文介绍了一种名为 MobileSAM 的轻量级 SAM 模型,其将重量级图像编码器替换为轻量级图像编码器,并且使用解耦蒸馏技术来训练模型,以便在移动设备上使用,相对于 FastSAM,MobileSAM 模型可缩小 7 倍且速度快 4 倍。
Jun, 2023
我们提出了 EfficientViT-SAM,这是一种新的快速分段任意模型系列,通过保留 SAM 的轻量级提示编码器和屏蔽解码器,以 EfficientViT 替代了较重的图像编码器。通过从 SAM-ViT-H 图像编码器到 EfficientViT 的知识蒸馏进行训练,并在 SA-1B 数据集上进行端到端训练,EfficientViT-SAM 在不损失性能的情况下,在 A100 GPU 上的 TensorRT 加速能够传递 48.9 倍的速度提升。我们的代码和预训练模型已在此 https URL 发布。
Feb, 2024
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级 CNNs 的高效设计,强调其在移动设备上的潜力,并通过整合轻量级 ViTs 的高效架构选择增强了一种新的纯轻量级 CNNs 家族,即 RepViT。大量实验证明,RepViT 优于现有的轻量级 ViTs,并在各种视觉任务中具有有利的延迟。在 ImageNet 上,RepViT 在 iPhone 12 上实现了超过 80%的 top-1 准确性,延迟接近 1 毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型 RepViT-M3 在仅 1.3 毫秒延迟下获得了 81.4%的准确性。代码和训练模型可在 https://github.com/jameslahm/RepViT 找到。
Jul, 2023
提出了一种 TinySAM 模型,通过知识蒸馏、后训练量化和分层分割策略,在保持零样本性能的同时大幅度减少了计算成本,进一步推动了高效分割任务的发展。
Dec, 2023
本论文针对计算机视觉中处理高分辨率输入带来的高昂计算代价提出了使用基于 CNN 检测器结合实例分割进行图像分割的替代方案,实验结果表明该方法仅使用 SAM 作者发布的 1/50 数据集,便可在 50 倍的运行时速下实现与 SAM 方法基本相当的性能。
Jun, 2023
通过测试在自然图像上训练的各种预训练的视觉 Transformer 和稳定扩散模型,本研究证明它们在医学图像的对应问题和语义分割任务上能够取得良好的性能。
Oct, 2023
基于大规模 Transformer 模型的 SAM 模型制约了其在广泛现实应用中的计算成本。为解决这个问题,我们提出了轻量级 SAM 模型 EfficientSAMs,借助图像预训练方法 SAMI,通过 SAM 图像编码器重建特征进行视觉表征学习,并在 SA-1B 上微调模型,实现对图像分类、对象检测、实例分割和语义对象检测等多个视觉任务的评估。结果显示,SAMI 方法在面向零样本实例分割等任务上,我们的 EfficientSAMs 表现优于其他快速 SAM 模型,达到显著增益(例如,在 COCO/LVIS 上的 AP 提高了约 4 个点)。
Dec, 2023
通过转换器架构,本研究提出了一种新的实时分割方案,名为全能实时分割,旨在使用一个模型实现交互分割、全景分割和视频分割等不同任务,为视觉基础模型的实时应用提供了强有力的基准和优化方法。
Jan, 2024
我们旨在开发一个适用于摄影应用的 SAM 模型的版本。SqueezeSAM 模型体系结构在性能和模型尺寸上相比原模型具有更高的效果,我们使用显著性物体检测生成初始分割掩码,用户可以进行交互编辑,并通过引入新的数据增强方案来实现期望点击相关物体的整体分割。
Dec, 2023
本文介绍了一种针对医学影像的零样本分割模型 Segment Anything (SAM),通过细调轻量级任务特定的 ViT 预测头来提高其在医学影像数据集上的性能。
Jun, 2023