跨模态视觉转换器的交互式图像分割

Jul, 2023

跨模态视觉转换器的交互式图像分割

Interactive Image Segmentation with Cross-Modality Vision Transformers

Kun Li, George Vosselman, Michael Ying Yang

TL;DR本研究提出一种交互式图像分割网络，利用跨模态视觉 transformers 来更好地指导学习过程，并且在多个基准测试中实现了优越的性能表现，具有实用的注释工具潜力。

Abstract

interactive image segmentation aims to segment the target from the background with the manual guidance, which takes as input multimodal data such as images, clicks, scribbles, and bounding boxes. Recently, vision transf

interactive image segmentation vision transformers cross-modality mutual information annotation tool

发现论文，激发创造

跨模态医学图像分割的简单而强大的框架: Vision Transformers 应用

通过使用单一的条件模型，根据输入类型调整其归一化层来实现多模态图像的公平图像分割，并在多模态全心分割挑战中优于其他跨模态分割方法。

Oct, 2023

从示例中学习进行交互式图像分割

我们介绍了交互式图像分割框架，用于提取单个目标和相同类别中的多个目标的满意掩码。通过利用 Transformer 骨干网络从图像和交互中提取特征，我们的模型能够达到比以前方法更好的性能，减少用户的劳动量并具备灵活和实用的注释工具的潜力。

Jun, 2024

医疗图像分割的多模态信息交互

通过引入创新的多模态信息交叉变换器（MicFormer），本研究在多模态图像任务中成功整合不同模态之间的相关信息，显著提高了分割性能，表明 MicFormer 在多模态图像任务中具有广泛的应用潜力。

Apr, 2024

基于 Transformer 的视觉分割：一份综述

本文综述了基于 transformer 的视觉分割技术，总结了近期的进展，详细介绍了各种方法设计和应用，并对该领域的未来研究方向进行了探讨。

Apr, 2023

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

CiT-Net: 卷积神经网络和视觉 Transformer 手牵手进行医学图像分割

本文提出了一种新的医学图像分割混合架构，手持卷积神经网络和 Transformer，用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能，以实现更好的医学图像分割结果。

Jun, 2023

基于 Transformer 的跨模态肿瘤分割的图像级监督和自训练

我们提出了一种名为 MoDATTS 的新的半监督训练策略，用于处理自动医学图像分割中存在的模态遗传性问题，并通过图像转换和视觉转换器实现更准确的肿瘤分割。该模型在 CrossMoDA 2022 挑战中表现出优越的性能，并在 BraTS 2020 挑战数据集上显示出一致的改进。

Sep, 2023

多模态互相关注和迭代交互用于指代图像分割

本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器，与之相结合的迭代式多模态交互机制及语言特征重建技术，在指代图像分割的任务中取得了很好的效果。

May, 2023

LILE: 使用 Transformer 的双重注意力网络进行组织病理学资料检索前深入查看

提出了一种使用自注意力作为额外损失项的新架构，以在联合潜在空间中表示图像和文本；在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明，该方法具有很好的效果。

Mar, 2022

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024