Jan, 2023

重新审视基于 CLIP 的图像到视频知识传递的时间建模

TL;DR本论文基于 CLIP 模型,提出了一种名为 STAN 的时空建模机制,用于将图像 - 文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。