Dec, 2023

EdgeSAM: 基于提示的环路蒸馏技术用于 SAM 的设备内部部署

TL;DREdgeSAM 是 Segment Anything Model(SAM)的一种加速变体,经过优化以在边缘设备上高效执行而不牺牲性能。该方法通过将原始的 ViT-based SAM 图像编码器精炼为纯 CNN-based 架构,更适合于边缘设备。我们仔细评估了各种精炼策略,并证明了任务不相关的编码器精炼未能充分捕捉 SAM 所体现的全部知识。为了克服这一瓶颈,我们将提示编码器和掩码解码器都纳入了精炼过程中,并使用盒状和点状提示,以使精炼模型可以准确捕捉用户输入和掩码生成之间的复杂动态。为了减少点状提示精炼带来的数据集偏差问题,我们在编码器中集成了一个轻量级模块。EdgeSAM 相比原始 SAM 提速了 40 倍,并且在部署于边缘设备时比 MobileSAM 快 14 倍,同时在 COCO 和 LVIS 上提高了 2.3 和 3.2 的平均交并比(mIoUs)。它还是第一个可以在 iPhone 14 上以超过 30 FPS 运行的 SAM 变体。代码和模型可在此 https URL 获取。