指代图像分割的遮罩定位
通过解决弱监督下的参考图像分割问题,提出了一种基于零样本学习的新型弱监督框架,通过分段、选择和修正三个步骤来获得高性能,实验结果表明该方法在弱监督下达到了与全监督方法相近的性能。
Oct, 2023
本文提出了一种名为 CM-MaskSD 的跨模态掩膜自学习框架,利用被称为 CLIP 模型的知识实现了精细的图像 - 文本对齐,并引入少量参数协调多模态特征,使其在三个基准数据集上优于现有方法,实现了对指定图像中物体的分割。
May, 2023
通过引入互感关注机制来强化交叉模态融合,提出了一种新的参考图像分割方法 MARIS,借助于 Segment Anything Model (SAM),通过两个并行分支,Vision-Guided Attention 和 Language-Guided Attention,双向建模视觉与语言特征之间的关系,并设计了一个 Mask Decoder 来实现明确的语言引导,以达到更一致的分割效果。
Nov, 2023
本文旨在解决 参考图像分割 (RIS) 中当图像中被参考的物体视觉线索不足时,学习匹配行为变得更困难的问题,提出了一种两阶段视觉提示增强网络 (TV-Net),可以有效增强参考物体的视觉信息,尤其是在视觉线索不足的情况下。并且通过在四个基准数据集上的实验,验证了所提出的 TV-Net 方法有效性并超越了现有技术的水平。
Oct, 2021
本文介绍了 FCNet(一个使用双向引导融合方法的框架),其中视觉和语言在引导角色中相互作用,旨在解决自然语言描述与像素级细节之间的关联问题,并通过在多模态特征上进行初始融合和进一步校准,提高多模态特征的质量。实验结果表明,我们的方法在多个数据集上优于现有最先进算法。
May, 2024
我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架,通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点:借助双向提示方法协调视觉和语言特征之间的域差异,通过校准方法减少噪声背景信息并提高响应图的正确性,通过正响应图选择策略从增强的响应图生成高质量的伪标签,用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明,我们的框架在与现有的全监督 RIS 方法相当的性能的同时,优于从相关领域调整的最新弱监督方法。
Aug, 2023
本研究提出了 Spatial Semantic Recurrent Mining (S extsuperscript {2} RM) 方法,用于实现高质量的跨模态融合,包括分布语言特征、空间语义递归协同解析和解析语义平衡,并结合 Cross-scale Abstract Semantic Guided Decoder (CASG) 来凸显指代物的前景。实验证明,该方法在四个具有挑战性的数据集上表现优于其他先进算法。
May, 2024
本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询,利用这些查询来产生对应的分割蒙版,最终的结果是所有蒙版的权重和,有效地减少了语言表达的随机性。结果表明,我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法,无需任何后处理。
May, 2023