Apr, 2023

基于草图的视频物体定位

TL;DR本文提出一种名为 Sketch-based Video Object Localization (SVOL) 的任务,通过 Sketch-Video Attention Network (SVANet) 的 Cross-modal Transformer 模型,成功实现了零样本能力的视频物体定位。