视频目标分割中的分层传播特征解耦
本研究介绍了 MSDeAOT,一种在多个特征尺度上运用 transformers 的 AOT 变体,利用分层的 GPM,以 stride 为 16 的特征尺度高效地从前一帧传播物体掩码至当前帧,同时在具有 stride 为 8 的更精细的特征尺度上应用 GPM,从而提高了检测和跟踪小物体的准确性。通过实现测试时间的数据增强和模型集成技术,我们在 EPIC-KITCHEN VISOR 半监督视频对象分割挑战中取得了排名第一的位置。
Jul, 2023
本研究提出了基于 AOT 的嵌入式学习方法,通过将多个对象相互关联在同一高维度嵌入空间中,实现了同时处理多个对象的匹配和分割解码,具有更高的效率,并且在多个基准测试中均优于已有的 State-of-the-art 算法,是第三次大规模 VOS 挑战的第一名。
Jun, 2021
本文提出一种新方法来解决半监督视频对象分割问题,采用基于 Multiple Hypotheses Tracking 的 Bounding Box 假设来跟踪视频中的目标物体,并通过基于运动模型的门控策略来产生多个假设,最后采用自定义的算法来处理目标缺失和掩膜冲突等问题,通过大量的测试证明本方法具有良好的效果。
Apr, 2019
本文提出了一种名为 HST 的半监督视频对象分割框架,使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征,并使用内存读取操作产生层次特征以精确重构对象蒙版,该框架在处理复杂场景下具有有效性和鲁棒性,尤其是 HST-B 在多个流行基准测试中优于现有技术。
Jul, 2023
通过 Associating Objects with Transformers (AOT) 框架,将 bounding boxes 转换为 masks,通过多个 feature scales 的转换实现视频对象跟踪和分割,并在 EPIC-KITCHENS TREK-150 Object Tracking Challenge 中获得第一名。
Jul, 2023
开发了一种解耦视频分割方法(DEVA),包括任务特定的图像级分割和与类别 / 任务无关的双向时间传播模型,通过在线融合来生成一致的分割,在大词汇视频分割、开放世界视频分割、参考视频分割和无监督视频目标分割等多个数据稀缺任务中与端到端方法相比具有优势。
Sep, 2023
本篇论文提出了一种基于标签传播和特征相似性的转导方法,用于半监督视频目标分割,其中考虑了长期目标出现特征。该方法无需额外的模块、数据集或架构设计,使用普通的 ResNet50 作为主干,在 DAVIS 2017 评估集上达到了 72.3 的分数,有着高性能和高效率的优点。
Apr, 2020
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能,并在 VOT2022 挑战活动中获得第一名。
May, 2023
本研究提出了一种端到端的深度神经网络,结合了 Mask-RCNN 实例分割网络和 Conv-GRU 视觉记忆模块,用于解决半监督视频对象分割任务,实验结果表明该方法在 DAVIS 数据集上取得了令人满意的结果。
Sep, 2019