本研究提出了一种基于 Synchronous Multi-Modal Fusion Module 和 Hierarchical Cross-Modal Aggregation Module 的引用图像分割模型,并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。
Apr, 2021
本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
May, 2023
本研究旨在处理通过自然语言描述的对象分割问题,并提出了一种新的方法,将递归神经网络和卷积神经网络相结合以完全利用语言的递归本质。通过四个标准数据集的比较,我们的方法在八个任务中的六个任务中表现超越之前的方法。
Jul, 2018
本论文提出一种基于逐步学习区分性多模态特征的方法,通过不断更新查询作为目标对象的表示,强化与之相关的多模态特征,逐渐从定位中心转为分割中心,实现逐步修复缺失对象部分和 / 或去除多余部分,并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。
Mar, 2023
提出一种新的跨模态条件重构来从事以语言指导的医学图像分割,并通过实验证明了其在不同数据集上的优越性能
Apr, 2024
本文提出了一个基于自然语言表达式的图像分割新问题,在此任务中,我们使用全新的终端到终端训练的递归卷积网络模型来提取像素级的分割结果,它能够同时学习处理视觉和语义信息,实验结果表明我们的方法在对自然语言表达式进行分割时能够产生更高质量的的分割效果。
Mar, 2016
本文提出了一种双重多模态交互网络 (DMMI),用于解决自然语言表达中引用图像分割的问题,并设计了一个新的挑战性但真实的数据集 Ref-ZOM,通过大量实验证明该方法在不同数据集上取得了最先进的性能,并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。
Aug, 2023
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法,还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
本文提出了一种跨模态自注意模块 (CMSA),可以有效地捕捉语言和视觉特征之间的长距离依赖关系,并且采用门控多层融合模块,以选择性地集成不同级别的特征。在多个数据集上的验证表明,我们的方法在图像分割任务上显著优于现有的最先进的方法。
Apr, 2019
本文提出了一种端到端的多层蒙版网络 (MMNet), 旨在解决自然语言表达和图像之间数据差异的挑战。该模型使用关注机制生成多个查询,利用这些查询来产生对应的分割蒙版,最终的结果是所有蒙版的权重和,有效地减少了语言表达的随机性。结果表明,我们的方法在 RefCOCO、RefCOCO+ 和 G-Ref 三个数据集上性能优于现有的方法,无需任何后处理。