融合多种模态信息的统一视频物体分割时序变换器
本文提出了一种名为 Multimodal Tracking Transformer(MTTR)的基于 Transformer 的方法来实现 referring video object segmentation(RVOS)任务,该方法将视频和文本结合起来处理,不依赖于复杂的流水线,并且在标准基准测试中显著优于以前的方法。
Nov, 2021
该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案,其中构建了一组详尽的对象 tracklets,并提出了一种 Transformer-based tracklet-language grounding 模块,模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。
Jun, 2021
该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信息的动态卷积核,用于从特征映射中生成分割掩码,因此可以极大地简化管道并显著区别于先前的方法。
Jan, 2022
提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架,通过学习 mask 序列解决视频中物体的分割问题,并通过 Stacked Transformer 来捕捉物体级别的空间上下文。
Sep, 2023
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
Jul, 2023
通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合,提出了一种有效的模式,该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F, 在测试集上实现了 70% 的 J&F,在第 5 届大规模视频对象分割挑战(ICCV 2023)的第 3 组中排名第一。
Jan, 2024
本文提出了在压缩视频数据流上进行指代视频目标分割任务的多关注机制网络和基于查询的跨模态 Transformer 模块,实现了使用单核心直接生成最终分割掩模的复杂后处理过程的目标,结果表明其有效性。
Jul, 2022
在这篇论文中,我们提出了 OneVOS,这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens,通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外,我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力,以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后,为了减轻存储负担并加快推理速度,我们提出了动态 Token 选择器,该选择器揭示了 OneVOS 的工作机制,并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性,在七个数据集上实现了最先进的性能,特别是在复杂的 LVOS 和 MOSE 数据集上,J&F 得分分别为 70.1%和 66.4%,超过了先前最先进的方法 4.2%和 7.0%。我们的代码可供再现性和进一步研究。
Mar, 2024
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
Jun, 2021
本文提出了 IFIRVOS 框架用于改善视频中的目标分割,其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性,从而提高了分割结果的准确性和模型的性能。
Jul, 2023