ICCVAug, 2023

Video OWL-ViT:视频中的时间一致性开放世界定位

TL;DR基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。