ICCVAug, 2023
Video OWL-ViT:视频中的时间一致性开放世界定位
Video OWL-ViT: Temporally-consistent open-world localization in video
Georg Heigold, Matthias Minderer, Alexey Gritsenko, Alex Bewley, Daniel Keysers...
TL;DR基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。