关键词fine-grained visual grounding
搜索结果 - 2
- 指代图像分割的遮罩定位
通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在 RefCOCO、Re - 揭示超越物体的部分:迈向更精细的指代表达分割
提出了一种多层次指代表达式分割任务 (MRES),构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M,设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务,通过在 RefCOCOm、R