- Tarsier:训练和评估大型视频描述模型的方案
通过 Tarsier 模型,使用 CLIP-ViT 对视频帧进行编码并利用 LLM 建模时间关系,实现精细级视频描述,同时在多个公共基准测试中达到了新的最佳结果,并提供了一个新的用于评估视频描述模型的基准数据集及专门设计的评估方法。
- 加强视频语言表示的结构时空对齐
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
- CVPRHENASY: 学习组装场景实体的视角自述视频语言模型
视频 - 语言模型(VLM),是在大规模视频字幕数据集上进行预训练的,现在已成为强大的视觉 - 语言表示和下游任务的标准。然而,它们依赖全局对比对齐的方式限制了其捕捉视觉和文本元素之间细粒度交互的能力。为了解决这些挑战,我们介绍了 HENA - 开放词汇空间时间动作检测
通过对现有 STAD 数据集建立两个基准,并提出基于预训练视频 - 语言模型的简单而有效的方法,我们在新的类别上取得了令人期待的性能,通过训练一个在有限的基本类别上的模型来具备好的泛化性能。
- TV-TREES: 多模态蕴涵树用于神经符号化视频推理
该论文提出了一种基于 TV-TREES 的多模态蕴涵树生成器,用于解决在电视剪辑等复杂多模态内容上的问答问题,通过生成简单前提与视频直接蕴涵的更高级结论之间的蕴涵关系树,实现可解释的联合模态推理;在 TVQA 数据集上进行的实验证实了该方法 - Slot-VLM:视频 - 语言建模的 SlowFast 插槽
使用 VLM 技术,本研究提出了一种名为 Slot-VLM 的新框架,通过语义分解视频 tokens,将视频内容与 LLMs 相对齐,为 LLM 推理提供帮助。Slot-VLM 在视频问答任务中取得了最先进的性能。
- 数百万视频上的视觉语言模型蒸馏
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频 - 语言基准上取得了显著结果。
- Spacewalk-18:一项在新领域中进行多模态和长形式过程视频理解的基准测试
视频学习是一个新兴的研究领域,使得机器人能够从人类的示范中获取技能,这需要视频语言模型能够获得结构化的理解,如将示范的时间分段为动作和技能序列,并将这些理解推广到新的领域。本研究引入了 Spacewalk-18 基准,其中包含两个任务:(1 - VITATECS:用于视频语言模型的时间概念理解诊断数据集
通过引入细粒度的自然语言中的时间概念的分类,利用反事实视频描述来解开静态和时间信息之间的相关性,并评估典型的视频语言理解模型,揭示了对于视频语言研究中时间元素的更大重视的需求。
- SPOT!重新审视视频语言模型用于事件理解
利用网络爬取的大规模视频 - 文本对数据作为弱监督,视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题,通过提出 SPOT Prober 方法并进行实验证明,通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解 - Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集,用于预训练和基准测试
为促进 VLP 和 LLM 的发展,作者发布了 Youku-mPLUG 数据集,其中包含经过过滤的 1000 万个视频文本对,用于大规模预训练,并发布了基于该数据集预训练的模型和人类标注的中文基准,最终通过实验验证证明该数据集可以增强理解视 - 时间考验:让视频语言模型具有时间感
本文旨在向已有视频语言模型注入时间感,通过后预训练等方式实现,观察经过处理后的模型在时间感知任务中的性能提升情况,并在六个数据集上进行了零样本评估。
- EMNLP预训练模型在多模式标题生成中的嫁接
本文提出了一种新方法,将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上,并通过跨模态和内模态关系的一致性融合机制集成不同组件,以实现多模标题的生成。经过实验证明,嫁接模型在从实际应用程序收集的全新数据集上取得了强大的 - ACL使用细粒度帧采样的对比视频语言学习
FineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样,以更好地学习视频和语言表示,从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果,尤其是在 YouCookII 上 - LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模
本文提出了一种名为 LAVENDER 的统一的视觉 - 语言框架,它使用遮蔽语言建模作为所有预训练及下游任务的共同接口,从而实现了简化的模型架构,并在 14 个视频 - 语言基准测试中取得了竞争力的表现。
- 利用图像描述符的语言模型是强的少样本视频语言学习器
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预