CVPRJan, 2022

使用语言查询进行视频对象分割

TL;DR该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信息的动态卷积核,用于从特征映射中生成分割掩码,因此可以极大地简化管道并显著区别于先前的方法。