Jan, 2023

重新审视基于CLIP的图像到视频知识传递的时间建模

TL;DR本论文基于CLIP模型,提出了一种名为STAN的时空建模机制,用于将图像-文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。