分析视觉语言模型在视频理解任务上的零样本能力
本文提出了VideoCLIP,这是一种对比学习方法,用于在没有下游任务的标签情况下,预训练用于零样本视频和文本理解的统一模型。我们的实验表明,这种方法在一系列下游任务中的表现最优,超越了之前的工作,并在某些情况下甚至优于有监督方法。
Sep, 2021
本研究提出了一种简单但强大的基准线以有效地适应预训练的I-VL模型,并利用其强大的资源-hungry视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别,动作定位和文本-视频检索的10个公共基准测试,尽管优化参数显著减少,但在封闭集,少量样本和零样本情况下,我们实现了与现有方法相当或最新的性能,实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。
Dec, 2021
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
本文提出一种简单有效的方法,将预先训练好的语言-图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
Aug, 2022
本文提出了一种将预训练的判别性视觉-语言模型与预训练的生成性视频-文本和文本-文本模型相结合的框架,在零样本设置中引入了两个关键改进,提高了视觉-语言模型的性能,并在视频理解方面展示了一致的改进。
Oct, 2023
我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为Mug-STAN的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像-文本模型扩展到多样化的视频任务和视频-文本数据。
Nov, 2023
我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练,在这种协议下,我们不假设对任何视频有标签的访问,即没有对应用真实字幕的视频集的访问权限;但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景,因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近,零样本学习的图像专家,如CLIP已经为视频理解任务建立了强大的基准线。在本文中,我们利用这一进展,实例化两种类型的图像专家模型:文本到图像检索模型用于提供初始骨架,以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧,可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征,进而在文本到视频检索任务中胜过强大的零样本学习基准线CLIP。在训练过程中,我们从多个最佳匹配视觉内容的视频帧中采样字幕,并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解,并通过在三个标准数据集(ActivityNet、MSR-VTT和MSVD)上胜过CLIP的零样本学习基准线来证明这个简单框架的有效性。
Apr, 2024
该论文介绍了一种名为TOPA的新方法,通过使用现有的大型语言模型(LLM)自动生成模拟真实视频-文本数据的连续文本帧,进而预对齐一种仅使用语言的LLM与视频模态之间的差距,并利用CLIP模型作为特征提取器来对齐图像和文本模态,从而实现了视频内容与LLMs的对齐。经过广泛实验证明,TOPA是一种有效而高效的框架,可与视频理解任务相结合,并达到与GPT-3.5基于视频代理相当的性能。
May, 2024
最近的视频文本基础模型在各种下游视频理解任务中展现了强大的性能。然而,标准的视频文本评估可能会误导,因为许多问题仅可以通过单帧中的对象和上下文或数据集固有的偏见推断出来。本文旨在更好地评估当前视频文本模型的能力并了解其局限性。我们提出了一项新颖的视频文本理解评估任务——根据对照增强数据进行检索(RCAD),并创建了一个新的Feint6K数据集。实验和分析表明,我们的方法成功地学到了更有区分性的动作嵌入,并在多个视频文本模型上改善了Feint6K的结果。
Jul, 2024