Mar, 2024

重新思考指称物体移除

TL;DR构建了一个合成数据集 ComCOCO,其中包含了 34,615 个对象的 136,495 个自然语言表达的引用表达式,以及 23,951 个图像对的消除后的真实结果。我们进一步提出了一个端到端的语法感知混合映射网络,具有编码 - 解码结构。通过多头注意力在视觉特征的下采样过程中,以句法层次分层提取语言特征,并融合在一起。利用特征对齐的金字塔网络,生成分割掩模,并用从高层特征图中学习到的外部语义区域亲和性替换内部像素。大量实验证明,我们的模型在处理分割和修复任务的两个阶段的扩散模型和两阶段方法上,明显优于它们。