CVPRApr, 2024

解耦参照视频分割中的静态与层级运动感知

TL;DR视频级别参照表达理解的静态与运动感知的解耦以及对时间感知的强化,并采用对比学习来区分视觉上相似的对象的运动,取得了在五个数据集上的最先进性能,并在具有挑战性的 MeViS 数据集上有了显著的 9.2% 的 J&F 改进。