本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
本文介绍了利用图像字幕预训练高质量视频模型的方法,并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效,使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能,并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。
Apr, 2023
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
本文提出一种简单有效的方法,将预先训练好的语言 - 图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。
Aug, 2022
我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究,发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能,对视频字幕能力中等,对视频问答能力较差,这些结果揭示了在避免昂贵的预训练阶段的同时,将基础图像文本模型应用于各种视频任务的益处。
Oct, 2023
该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法,简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。
Jul, 2022
我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM,并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术,从而提升了 VLM 性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。
Mar, 2024
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
Apr, 2019
本文提出了一种名为 VidLanKD 的视频 - 语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD 模型在多个语言理解任务上均取得了较好的效果。
Jul, 2021