MOSO：对视频预测进行运动、场景和对象的分解

CVPRMar, 2023

MOSO：对视频预测进行运动、场景和对象的分解

MOSO: Decomposing MOtion, Scene and Object for Video Prediction

Mingzhen Sun, Weining Wang, Xinxin Zhu, Jing Liu

TL;DR该研究提出了一种基于 MOtion，Scene 和 Object 分解的框架（MOSO）用于视频预测，并在多个基准测试中取得了最先进的性能表现。

Abstract

motion, scene and object are three primary visual components of a video. In particular, objects represent the foreground, scenes represent

motion, scene and object video prediction moso motion object

发现论文，激发创造

CVPR 2024 PVUW 复杂视频对象分割 MOSE 赛道第三名解决方案

视频目标分割是计算机视觉中的重要任务，研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响，并在复杂视频目标分割（MOSE）数据集上验证了我们方法的有效性，实验结果表明在测试集上达到了 0.8139 的 J&F 得分，在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。

Jun, 2024

大规模视频对象分割中的全局动作理解

通过在动态视频的对象分割中集成场景全局运动知识，我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构，利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时，我们使用大规模的 MOSE 2023 数据集训练模型，该方法在各种复杂场景中展现了强大的性能。

May, 2024

OneVOS: 统一视频对象分割的全能变压器框架

在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Mar, 2024

2024 PVUW 工作坊 CVPR 赛道多目标视频分割冠军解决方案

在视频目标分割领域，尤其是对象被遮挡和分割成部分的复杂场景中，追踪和分割多个对象一直是一项挑战。本研究提出了一种基于语义嵌入的视频目标分割模型，使用对象的显著特征作为查询表征，通过语义理解帮助模型识别对象的部分，并捕捉对象更具辨识性的特征。在大规模视频目标分割数据集上进行训练，我们的模型在 2024 年 PVUW Challenge 复杂视频目标分割赛道的测试集中取得第一名（84.45%）。

Jun, 2024

CVPR2024 PVUW 工作坊 MOSE 跟踪比赛第二名解决方案：复杂视频目标分割

我们在 MOSE 轨道的 PVUW 2024 比赛中排名第二，并采用实例分割、运动模糊、测试时间增强和记忆策略等方法来提高视频对象分割的准确性。

Jun, 2024

MoST: 多模态场景编码用于动作预测

通过将视觉世界划分为场景元素，并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素，我们提出了一种能够高效编码多帧多模态观察的方法，并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于现有技术。

Apr, 2024

视频物体分割的提议生成、精化和合并

我们提出了一种名为 PReMVOS 的半监督视频对象分割算法，它将问题分为生成准确的对象分割掩码提案和选择和合并这些提案成为准确且时间上连续的像素级对象轨迹，并在同时处理跨视频序列分割多个对象的困难问题方面取得了最先进的结果。

Jul, 2018

MOSE: 基于场景线索增强的基于视觉的路旁 3D 物体检测

基于 MOSE 框架的道路摄像机 3D 物体检测利用场景线索提高目标定位精度和推广能力，实现了超越现有方法的性能。

Apr, 2024

M3T：视频目标分割和跟踪的多尺度记忆匹配

通过提出一种新颖的，DET-R 风格的编码器 - 解码器架构，我们克服了长视频中有关小对象的数据特性所带来的挑战，并在两个复杂数据集上实现了最先进的性能。

Dec, 2023

通过解耦场景和运动来增强无监督视频表示学习

提出了一种解耦场景和物体运动信息的 DSM 方法，通过构造正负剪辑来加强模型对物体运动信息的关注，减少场景信息的影响，并在两项任务上进行实验，发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1％和 8.8％。

Sep, 2020