May, 2024

大规模视频对象分割中的全局动作理解

TL;DR通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用大规模的 MOSE 2023 数据集训练模型,该方法在各种复杂场景中展现了强大的性能。