Jun, 2024

CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案:运动表情引导的视频分割

TL;DR提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。