同构器：用于零样本视频目标分割的同构变换器

ICCVAug, 2023

同构器：用于零样本视频目标分割的同构变换器

Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation

Yichen Yuan, Yifan Wang, Lijun Wang, Xiaoqi Zhao, Huchuan Lu...

TL;DRTransformer 模型中，将外观和运动信息简单地串联起来，分别在多个特征阶段进行特征融合，可以明显提高性能，但计算量较大。通过经验分析，我们发现 Transformer 在不同阶段学习到的注意力依赖具有完全不同的特性，于是我们提出了两种 Transformer 变体：Context-Sharing Transformer (CST) 和 Semantic Gathering-Scattering Transformer (SGST)，分别用于低层和高层特征融合。相比于基线模型，我们的方法在速度上提升了 13 倍，并实现了新的 ZVOS 任务的最佳性能。

Abstract

Recent leading zero-shot video object segmentation (ZVOS) works devote to integrating appearance and motion information by elaborately designing feature fusion modules and identically applying them in multiple feature stages. Our preliminary experiments show that with the strong long-r

zero-shot video object segmentation feature fusion transformer context-sharing transformer semantic gathering-scattering transformer

发现论文，激发创造

TransVOS: 带有 Transformer 的视频目标分割

本文提出了一种新的基于 transformer 的框架 TransVOS，利用视觉 transformer 来充分利用和建模时间和空间关系，在保持效果的同时减少了模型参数和复杂性，从而实现了半监督视频对象分割中的最新性能。

Jun, 2021

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

OneVOS: 统一视频对象分割的全能变压器框架

在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Mar, 2024

交互式 Transformer 连体网络用于视频目标分割

本文提出了一种基于双模型网络和交互式变换器的半监督视频对象分割方法，能够有效地从历史帧向当前帧传播上下文信息，同时使用特征交互模块，提高了目标表示的性能，并通过三种基准实验验证了其优于现有方法的性能.

Dec, 2021

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

场景文本识别的视觉语义变换器

本文提出了一种 Visual-Semantic Transformer 的模型，通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息，然后将语义信息和视觉特征序列组合成伪多域序列，进而通过交互模块增强视觉特征和语义信息之间的相互作用，从而实现文本识别。实验结果表明，该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。

Dec, 2021

基于目标和上下文感知 Transformer 的高效零样本视觉检索

该研究提出了一种零样本深度学习架构 TCT（Target and Context-aware Transformer），结合目标和上下文信息进行图像搜索，表现出类人的搜索效率，在具有挑战性的视觉搜索任务中超越最先进的模型，并在具有不协调上下文的不变视觉搜索下展现出灵活的搜索方式。

Nov, 2022

全程 Transformer 装备的端到端指代视频物体分割

提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架，通过学习 mask 序列解决视频中物体的分割问题，并通过 Stacked Transformer 来捕捉物体级别的空间上下文。

Sep, 2023

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

面向组群分割的统一 Transformer 框架：协同分割，共同显著性检测和视频显著对象检测

该论文提出了一个名为 UFO 的统一框架，通过引入自注意机制和内部 MLP 学习模块，结合图像的空间信息和特征相似性，实现了针对协同分割、协同显著性检测和视频显著性对象检测的多任务单一网络架构，实验结果表明，该方法在精度和速度方面均优于现有方法。

Mar, 2022