Jun, 2021
从自上而下的视角重新思考跨模态交互,用于指代视频对象分割
Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation
Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang...
TL;DR该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案,其中构建了一组详尽的对象 tracklets,并提出了一种 Transformer-based tracklet-language grounding 模块,模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。