Jun, 2024
CVPR 2024 PVUW 工作坊 MeViS 赛道冠军解决方案:运动表情引导的视频分割
3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation
Feiyu Pan, Hao Fang, Xiankai Lu
TL;DR提出了一种使用预训练的视觉 - 语言模型作为骨干网络的方法,着重于增强跨模态特征交互,在视频目标分割中取得了显著的改进效果。