数百万视频上的视觉语言模型蒸馏
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
本文提出一种简单有效的方法,将预先训练好的语言-图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
Aug, 2022
本文利用自动生成的大规模全模态视频字幕数据集VAST-27M来探索多模态视频轨道(包括视觉、音频和字幕)与文本之间的联系,训练出了一种全模态视频-文本初始模型VAST,该模型可以感知和处理视频中的多种模式,并且在各种跨模态基准测试中获得了22项新的最先进结果。
May, 2023
我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究,发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能,对视频字幕能力中等,对视频问答能力较差,这些结果揭示了在避免昂贵的预训练阶段的同时,将基础图像文本模型应用于各种视频任务的益处。
Oct, 2023
通过介绍VideoCon,我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频-语言对齐模型的鲁棒性,提出了一个广泛的对比失配频谱,并通过一个大规模语言模型构建了基于对比视频字幕的VideoCon对齐数据集,我们的对齐模型在人为生成的对比字幕上在视频-语言对齐任务中的AUC指标上有了12个百分点的提升,同时在诸如文本到视频检索(SSv2-Temporal)和视频问答(ATP-Hard)等时间广泛的视频-语言任务中表现出了零-shot的最新性能。
Nov, 2023
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落-视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
Nov, 2023
在视觉语言预训练的演变过程中,从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中,本文提出了一种结合对比学习和多模态处理的统一框架(ModelName),在涉及文本和视觉数据的任务中,显著提高模型性能,同时降低学习参数。此外,本文介绍了一个首个交叉视频-文本数据集(VideoDatasetName),通过全面的字幕,进一步增强模型在图像-文本任务中的性能。
Jan, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过利用图像和视频之间的视觉相似性,本文介绍了一种成本效益较高的视频-LVLM模型,通过改进模型结构、引入创新的训练策略,并确定最有效的视频指令数据类型,实现了将基于图像的LVLM模型高效演化为视频-LVLM模型,并在有限资源环境下强调了时间理解的视频培训数据的重要性,提高了模型性能。
Jun, 2024
通过自动增强语言-视频数据集和多方位视频字幕生成方法,提高语言-视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024