Feb, 2024

DeiSAM: 用示意参考完成任何细分任务

TL;DR大规模、预训练的神经网络在各种任务中展示了强大的能力,包括零样本图像分割。然而,由于缺乏复杂场景中的推理能力,深度学习方法无法可靠地解释这种指示性表示。为了解决这个问题,我们提出了 DeiSAM-- 一个将大规模预训练的神经网络与可微分逻辑推理器相结合的方法,用于指示性可提示的分割。通过利用大型语言模型(LLMs)生成一阶逻辑规则并在生成的场景图上进行可微的前向推理,DeiSAM 能够通过将目标与逻辑推断的图像区域匹配来分割对象。作为我们评估的一部分,我们提出了 Deictic Visual Genome(DeiVG)数据集,其中包含了配对的视觉输入和复杂的指示性文本提示。我们的实证结果表明,DeiSAM 在指示性可提示的分割方面相较于纯数据驱动的基线有了显著的改进。