VideoCLIP:用于零样本视频文本理解的对比预训练
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
该研究使用中文数据构建巨大的图像文本配对数据集,并使用其预训练中文 CLIP 模型,该模型能够在零 - shot 学习和微调设置下,在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平,并能够在 ELEVATER 基准测试中实现竞争性能。
Nov, 2022
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
本研究介绍了 Open-VCLIP++,它是一个简单而有效的框架,通过最小化修改 CLIP 来捕捉视频中的时空关系,从而创建一个专门的视频分类器,同时追求泛化性。通过在训练和测试过程中利用权重插值的优势,我们演示了训练 Open-VCLIP++ 等同于零历史数据的持续学习。此外,我们利用大型语言模型生成了细粒度的视频描述,并与视频特征进行了对齐,从而更好地将 CLIP 应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估,并超过了现有最先进技术的显著水平。我们在 UCF、HMDB 和 Kinetics-600 数据集上分别实现了 88.1%、58.7% 和 81.2% 的零样本准确率,分别比最佳替代方法高出 8.5%、8.2% 和 12.3%。我们还在 MSR-VTT 视频文本检索数据集上进行了评估,结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平,并且相比其他方法使用了更少的微调数据。
Oct, 2023
本研究提出了 CLIP4Clip 模型,将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上,从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好,同时释放其代码供学术界使用。
Apr, 2021
通过对数据规模和语言源域差异的研究,本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法,称为 CLIP-ViP,通过视频代理机制改进后续预训练 CLIP,从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取得了 SOTA 结果。
Sep, 2022
通过对网络规模的图像文本数据进行弱监督预训练,本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法,在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明,该方法在各种视觉任务中具有高质量的表征。
Apr, 2024
通过扩展数据集和模型架构,该研究进一步探索了具有对比语言 - 图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架,该研究提出了 RWKV-CLIP,其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集,证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器,在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。
Jun, 2024