Mar, 2024

PosSAM: 全景开放词汇片段检测

TL;DR提出了一种开放词汇的全景分割模型,通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块(LDP),克服了 SAM 的局限性,并引入了面向掩膜的选择集成算法(MASE)来自适应地提高生成掩膜的质量,从而在多个数据集上展示了很强的泛化性能,并且在开放词汇全景分割方法方面取得了显著的改进。