通过跨模态递进理解进行参考图像分割
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态LSTM编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
Mar, 2017
本文提出了一种跨模态自注意模块 (CMSA),可以有效地捕捉语言和视觉特征之间的长距离依赖关系,并且采用门控多层融合模块,以选择性地集成不同级别的特征。在多个数据集上的验证表明,我们的方法在图像分割任务上显著优于现有的最先进的方法。
Apr, 2019
本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示,在两个数据集上评估了所提出的框架,并表明该方法在状态-of-the-art算法中表现良好。
Oct, 2019
该研究提出了一种基于依赖解析树抑制词语图的语言结构引导的多模态上下文建模方法,通过“采集-传播-分发”方案实现跨模态交互,完善地建模了句子的多模态上下文,实验证明该方法优于以往所有最先进的方法。
Oct, 2020
本研究提出了一种基于Synchronous Multi-Modal Fusion Module和Hierarchical Cross-Modal Aggregation Module的引用图像分割模型,并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。
Apr, 2021
本文提出了一个跨模态的渐进式理解方案,分别应用于图像和视频的参考分割中,通过使用实体,属性和关系词汇进行空间图形推理和时间图形推理来解决语言表达的主语并输出像素级掩码。
May, 2021
本篇论文提出了一种基于Transformer的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
May, 2023
本文提出了一种双重多模态交互网络(DMMI),用于解决自然语言表达中引用图像分割的问题,并设计了一个新的挑战性但真实的数据集Ref-ZOM,通过大量实验证明该方法在不同数据集上取得了最先进的性能,并且Ref-ZOM训练的模型能够良好地处理各种类型的文本输入。
Aug, 2023
提出一种名为VATEX的新框架,通过使用视觉感知文本特征来改进指代图像分割,在复杂场景中,通过将视觉特征与文本描述相结合,使用CLIP来生成初始查询,然后通过上下文理解来强制执行文本变体之间的特征相似性,并保证了语言表达的一致解释。该方法在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能改进。
Apr, 2024