- 2024 年 CVPR PVUW Workshop MeViS 赛道第二名方案:基于运动表情引导的视频分割
基于 RVOS 方法,我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强,并采用 SAM 进行空间细化,最终在验证阶段取得了 49.92 J &F 的得分,在测试阶段取得了 54.20 J &F 的得分,在 2024 CVPR - SALI: 结肠镜视频息肉分割的短期对齐与长期交互网络
该研究论文提出了一种名为 SALI 网络的视频分割方法,通过增强邻近特征的一致性和重建可靠的息肉表示,以改善内窥镜检查中肠镜视频息肉分割的准确性。实验证明,SALI 网络在空间差异和低视觉线索的情况下表现出很强的鲁棒性,相比现有的方法,在大 - CVPR解耦参照视频分割中的静态与层级运动感知
视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化,并采用对比学习来区分视觉上相似的对象的运动,取得了在五个数据集上的最先进性能,并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。
- RAP-SAM:面向实时通用分割任何事物
通过转换器架构,本研究提出了一种新的实时分割方案,名为全能实时分割,旨在使用一个模型实现交互分割、全景分割和视频分割等不同任务,为视觉基础模型的实时应用提供了强有力的基准和优化方法。
- 视频 Transformer 用于分割的理解:应用和可解释性的调查
视频分割是一个广泛的研究领域,重点研究基于 Transformers 的模型、解释性方法、时序动态和研究方向。
- 局部压缩视频流学习用于通用事件边界检测
使用压缩视频表示学习方法进行事件边界检测,利用压缩域中的丰富信息,提取 P 帧特征并使用轻量级 ConvNets 和时序关系捕捉器进行特征表示精炼,最后使用简单分类器确定视频序列的事件边界。
- PanoVOS:利用 Transformer 桥接非全景和全景视图进行视频分割
本文提出了一种全景视频数据集 PanoVOS,通过对现有的 15 个视频对象分割模型进行评估,发现它们都无法解决全景视频中像素级内容不连续的问题。因此,我们提出了一种全景空间一致性转换器 (PSCFormer),可以利用前一帧的语义边界信息 - ICCV使用解耦视频分割追踪任何对象
开发了一种解耦视频分割方法(DEVA),包括任务特定的图像级分割和与类别 / 任务无关的双向时间传播模型,通过在线融合来生成一致的分割,在大词汇视频分割、开放世界视频分割、参考视频分割和无监督视频目标分割等多个数据稀缺任务中与端到端方法相比 - 运用记忆网络进行手术运行时环境推理的机器人场景分割
通过使用时空对应网络 (STCN) 解决视频分割的类别偏差和临界状态的准确检测问题,在机器人辅助手术中实现了优异的分割性能和上下文推断。
- ICCVMeViS:一个基于运动表达的大规模视频分割基准
本研究旨在使用运动表达引导的视频分割,通过在描述对象运动的句子上对视频内容中的对象进行分割。我们提出了一个名为 MeViS 的大规模数据集,其中包含了大量的运动表达,用于指示复杂环境中的目标对象。通过对 MeViS 数据集进行 5 种现有的 - CVPRInstMove:针对基于物体的视频分割的实例运动
本论文研究了 instance-level motion 在物体中心视频分割中的应用,提出并实现了 InstMove,相较于基于像素级的运动信息,InstMove 主要使用实例级运动信息,克服了传统方法在遮挡和快速移动物体下的识别困难,取得 - TarViS: 基于目标的视频分割的统一方法
该论文提出了 TarViS,这是一种新颖的、统一的网络架构,可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务,它采用了近期具备多任务能力的方法,并使用抽象的 “查询” 来预测像素精度的目标掩码,其中一个 TarViS 模型可以 - 多模态片段拼接网络在广告视频编辑中的应用:基于重要性 - 连贯奖励
提出了一种名为 M-SAN 的多模式段组装网络,采用了多模式表示,并遵循具有注意机制的 Encoder-Decoder Ptr-Net 框架,以实现高效和连贯的段组装任务。在 Ads-1k 数据集上进行了实验,这是一个包含 1000 多个广 - CVPR边缘计算下的高效异构视频分割
我们提出了一个高效的视频分割系统,用于资源有限的边缘设备,利用异构计算,设计网络模型并优化异构数据流,实现了高精度、低延迟、高帧率和低功耗的实时增强现实系统。
- CVPRTubeFormer-DeepLab: 视频蒙版转换器
提出了 TubeFormer-DeepLab 模型,它是第一次以统一的方式处理多种核心视频分割任务。通过直接预测标注不同值的视频管道,该模型不仅显着简化了视频分割模型,而且在多个视频分割基准测试中取得了最先进的结果。
- Mask2Former 用于视频实例分割
通过直接预测 3D 分割体积,我们展示了通用的图像分割架构轻松推广到视频分割领域,Mask2Former 在视频实例分割方面也取得了最先进的性能,同时在 YouTubeVIS-2019 和 YouTubeVIS-2021 上分别达到了 60 - MMAuxAdapt: 稳定高效的测试时间适应方法,用于保持视频语义分割的时序一致性
该论文提出了一种无监督在线适应方法,名为 AuxAdapt,用于提高神经网络模型的时域一致性,通过利用一个辅助分割网络(AuxNet)对原始的分割网络(Main-Net)的决策进行针对性的修改,实现对视频序列的快速、准确、稳定的训练。
- 关于视频分割的深度学习技术调查
该论文综述了在视频分割中使用的深度学习算法,其中包括了对象分割和语义分割,同时提供了这两种方法和数据集的详细概述,以及在几个知名数据集上的性能评估和未来研究的机会。
- 人头肩部基于流的视频分割
本文提出了一种基于流的编码器解码器网络(FUNet)来处理高质量的背景减除和克服图像中的运动模糊问题,以解决视频分割在视频会议和虚拟现实应用中的问题,并且介绍了一个名为 ConferenceVideoSegmentationDataset - CVPR通过运动分组的自监督视频目标分割
本研究介绍了一种基于运动线索的分割方法,使用 Transformer 网络结构,采用自我监督的方法进行训练,结果在公共基准测试中表现优异,证明在现有视频分割模型中,对于运动线索的重要性,以及对视觉外观存在潜在偏差的可能性。