Jun, 2021

从自上而下的视角重新思考跨模态交互,用于指代视频对象分割

TL;DR该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案,其中构建了一组详尽的对象 tracklets,并提出了一种 Transformer-based tracklet-language grounding 模块,模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。