Jan, 2024
FiGCLIP: 细粒度 CLIP 适应通过密集标注视频
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos
Darshan Singh S, Zeeshan Khan, Makarand Tapaswi
TL;DR通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。