May, 2023

MMNet:用于指代图像分割的多掩模网络

TL;DR本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询,利用这些查询来产生对应的分割蒙版,最终的结果是所有蒙版的权重和,有效地减少了语言表达的随机性。结果表明,我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法,无需任何后处理。