视频目标分割中的分层传播特征解耦

Oct, 2022

视频目标分割中的分层传播特征解耦

Decoupling Features in Hierarchical Propagation for Video Object Segmentation

Zongxin Yang, Yi Yang

TL;DR研究论文提出了一种新的分层传播方法 DeAOT，它通过在两个独立分支中处理目标通用嵌入和目标特定嵌入，同时采用门控传播模块来构建分层传播，从而显著提高了视频物体分割的准确性和效率。

Abstract

This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised video object segmentation (VOS). Based on →

semi-supervised video object segmentation hierarchical propagation vision transformers deaot

发现论文，激发创造

2023 EPIC-KITCHEN 挑战赛中的浙江大学 ReLER 提交：半监督视频目标分割

本研究介绍了 MSDeAOT，一种在多个特征尺度上运用 transformers 的 AOT 变体，利用分层的 GPM，以 stride 为 16 的特征尺度高效地从前一帧传播物体掩码至当前帧，同时在具有 stride 为 8 的更精细的特征尺度上应用 GPM，从而提高了检测和跟踪小物体的准确性。通过实现测试时间的数据增强和模型集成技术，我们在 EPIC-KITCHEN VISOR 半监督视频对象分割挑战中取得了排名第一的位置。

Jul, 2023

基于 Transformer 的视频目标分割算法

本研究提出了基于 AOT 的嵌入式学习方法，通过将多个对象相互关联在同一高维度嵌入空间中，实现了同时处理多个对象的匹配和分割解码，具有更高的效率，并且在多个基准测试中均优于已有的 State-of-the-art 算法，是第三次大规模 VOS 挑战的第一名。

Jun, 2021

MHP-VOS：视频目标分割的多假设传播

本文提出一种新方法来解决半监督视频对象分割问题，采用基于 Multiple Hypotheses Tracking 的 Bounding Box 假设来跟踪视频中的目标物体，并通过基于运动模型的门控策略来产生多个假设，最后采用自定义的算法来处理目标缺失和掩膜冲突等问题，通过大量的测试证明本方法具有良好的效果。

Apr, 2019

DeVOS: 流引导的可变形变压器用于视频对象分割

结合基于记忆的匹配和运动引导传播的 DeVOS（可变形视频对象分割）架构，用于视频对象分割，实现稳定的长期建模和强大的时间一致性。

May, 2024

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

2023 年浙江大学 ReLER 提交的 EPIC-KITCHEN 挑战：TREK-150 单目标追踪

通过 Associating Objects with Transformers (AOT) 框架，将 bounding boxes 转换为 masks，通过多个 feature scales 的转换实现视频对象跟踪和分割，并在 EPIC-KITCHENS TREK-150 Object Tracking Challenge 中获得第一名。

Jul, 2023

使用解耦视频分割追踪任何对象

开发了一种解耦视频分割方法（DEVA），包括任务特定的图像级分割和与类别 / 任务无关的双向时间传播模型，通过在线融合来生成一致的分割，在大词汇视频分割、开放世界视频分割、参考视频分割和无监督视频目标分割等多个数据稀缺任务中与端到端方法相比具有优势。

Sep, 2023

视频对象分割的传导式方法

本篇论文提出了一种基于标签传播和特征相似性的转导方法，用于半监督视频目标分割，其中考虑了长期目标出现特征。该方法无需额外的模块、数据集或架构设计，使用普通的 ResNet50 作为主干，在 DAVIS 2017 评估集上达到了 72.3 的分数，有着高性能和高效率的优点。

Apr, 2020

在全景野外场景下的视频对象分割

本文提出了半监督视频对象分割的概念，给出了 Panoptic Wild Scenes 的大型基准和基线方法，建立了 VIPOSeg 数据集，提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT，在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能，并在 VOT2022 挑战活动中获得第一名。

May, 2023

视频对象分割的学习实例传播（Learning Instance Propagation for Video Object Segmentation）

本研究提出了一种端到端的深度神经网络，结合了 Mask-RCNN 实例分割网络和 Conv-GRU 视觉记忆模块，用于解决半监督视频对象分割任务，实验结果表明该方法在 DAVIS 数据集上取得了令人满意的结果。

Sep, 2019