StitchFusion:编织任意视觉模态以增强多模态语义分割
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的AdapNet ++单模分割体系结构,并获得了最新的性能。
Aug, 2018
本文提出了一个针对基于Transformer的视觉任务的多模态令牌融合方法(TokenFusion),可以在保持单模态Transformer结构基本不变的同时,学习多模态特征之间的相关性,并超越三个典型视觉任务中的最先进方法。
Apr, 2022
利用多模态融合可以使语义分割更具鲁棒性,但是融合任意数量的模态仍未被探索,因此我们创建了DelIVER任意模态分割基准,并提供了四种恶劣天气条件和五种传感器故障情况的数据集,以利用模态互补性和解决局部故障。我们提出了交叉模态分割模型CMNeXt,它包含一个自查询中心设计来从任何模态中提取有效信息,并添加每增加一个模态只有可以忽略的参数量。在多项基准测试中,我们的方法在DelIVER,KITTI-360,MFNet,NYU Depth V2,UrbanLF和MCubeS数据集上均取得了最先进的性能。
Mar, 2023
利用跨模态语义指导多模态特征的融合和解码,提出了一种新的方法以控制相对熵,具有共享和特定的表示法以及跨层自我监督,并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decoder 两部分解码器,提高特征可辨别性和系统的表现。
May, 2023
最近,在具有图像级文本监督训练的语义分割模型中,在具有挑战性的开放世界场景中展示出了有希望的结果。然而,这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题,我们提出了MixReorg,这是一种用于语义分割的新颖而直接的预训练范例,它增强了模型在重新组织混合在图像中的补丁时的能力,探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁-文本对数据,同时保留补丁和文本之间的对应关系。然后,该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器,MixReorg可以使传统的文本监督语义分割模型具有高度可概括的像素-语义对齐能力,这对于开放世界分割至关重要。在使用大规模的图像-文本数据训练后,MixReorg模型可以直接应用于分割任意类别的视觉对象,无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能,在PASCAL VOC2012、PASCAL Context、MS COCO和ADE20K上的mIoU分别优于GroupViT的5.0%、6.2%、2.5%和3.4%。
Aug, 2023
我们介绍了U3M:一种用于多模态语义分割的无偏多尺度模态融合模型,其通过有效提取和整合全局和局部特征,实现了在多个数据集上的优越性能,并证实了在各种环境中增强语义分割的鲁棒性和多样性。
May, 2024
跨模态变换器已经在不同的视觉任务中展示了优越性能,本文提出了一种像素级融合方法GeminiFusion,它通过融合模态内部关注和模态间关注,动态地整合跨模态的互补信息,同时通过层自适应噪声实现了协调的融合过程,该方法在多模态图像转换、三维物体检测和任意模态的语义分割任务中表现出优秀的性能。
Jun, 2024
用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合,从未筛选过的LAION数据集选择了100万张高度代表性的图片,生成了密集描述数据集,通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力,验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。
Jul, 2024
通过从多模态视觉语言模型中进行知识蒸馏的方式,提出了一种新的学习无模态偏好表示的框架,该框架能够在任何视觉条件下结合任何模态并实现稳健的分割,实验证明其在多模态和模态不完整的情境下均达到了最先进水平。
Jul, 2024
本研究解决了引用图像分割中复杂和模糊语言表达的理解及相关区域识别的挑战。提出了交叉感知早期融合框架,允许视觉和语言编码器在各阶段互相引用信息,从而增强跨模态上下文建模能力。实验表明,该方法在三个公共基准测试中都优于现有的最先进技术。
Aug, 2024