标定与重建:用于指代图像分割的深度集成语言
本研究提出一种新的方法,在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合,实现更好的交叉模态对齐,进而通过轻量级的掩模预测器得到准确的分割结果,该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。
Dec, 2021
本论文提出一种基于逐步学习区分性多模态特征的方法,通过不断更新查询作为目标对象的表示,强化与之相关的多模态特征,逐渐从定位中心转为分割中心,实现逐步修复缺失对象部分和 / 或去除多余部分,并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。
Mar, 2023
本文针对有挑战性的指称分割任务,利用注意力机制、多头注意力、查询生成模块和查询平衡模块等技术,构建了一种轻量级的网络架构来解决任务,并在 RefCOCO、RefCOCO + 和 G-Ref 三个数据集上实现了新的最高性能。
Aug, 2021
本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
May, 2023
本文介绍了 FCNet(一个使用双向引导融合方法的框架),其中视觉和语言在引导角色中相互作用,旨在解决自然语言描述与像素级细节之间的关联问题,并通过在多模态特征上进行初始融合和进一步校准,提高多模态特征的质量。实验结果表明,我们的方法在多个数据集上优于现有最先进算法。
May, 2024
在本文中,我们提出了一种使用对比式分组和 Transformer 网络 (CGFormer) 的掩模分类框架,通过基于令牌的查询和分组策略来明确捕捉对象级信息。CGFormer 通过交替查询语言特征并将视觉特征分组到查询令牌中进行对象感知的跨模态推理,最终通过对比学习来确定与参考对象对应的令牌及其掩模,实验结果显示 CGFormer 在分割和泛化设置中始终明显优于最先进的方法。
Sep, 2023
本文提出了一种基于 CLIP 的终端到终端的指代图像分割框架(CRIS),该框架采用视觉语言解码器和对比学习实现文本到像素级特征的对齐,通过在三个基准数据集上的实验结果表明,该框架的性能显著优于现有方法。
Nov, 2021
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
Jun, 2021
本文介绍 ReSTR,一种卷积神经网络瓶颈可用的 Transformer,它可以用自注意力机制来融合图像和语言信息。该模型在公共基准测试中表现出色。
Mar, 2022
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
Mar, 2017