ICCVAug, 2023

超越一对一:重新思考参考图像分割

TL;DR本文提出了一种双重多模态交互网络 (DMMI),用于解决自然语言表达中引用图像分割的问题,并设计了一个新的挑战性但真实的数据集 Ref-ZOM,通过大量实验证明该方法在不同数据集上取得了最先进的性能,并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。