自链接图像语言模型用于视频定位和问答

May, 2023

自链接图像语言模型用于视频定位和问答

Self-Chained Image-Language Model for Video Localization and Question Answering

Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal

TL;DR本文提出了一种新框架 SeViLA，该框架利用单个图像 - 语言模型同时解决视频中的时间关键帧定位和问答，并通过双向链式推断和自我精炼解决了一些昂贵的标注问题，实现了五项视频 QA 和事件预测任务的最佳性能。

Abstract

Recent studies have shown promising results on utilizing pre-trained image-language models for video question answering. While these image-language models can efficiently bootstrap the representation learning of video-language models, they typically concatenate uniformly sampled video

video question answering pre-trained image-language models self-chained video localization-answering temporal keyframe localization cascaded inference

发现论文，激发创造

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

VLAP: 通过帧提示和蒸馏实现高效视频 - 语言对齐用于视频问答

我们提出了一种高效的视频 - 语言对齐方法（VLAP），通过帧提示和蒸馏来实现。我们的 VLAP 模型以统一的方式解决了有效的帧采样和有效的跨模态对齐问题。与之前的工作相比，我们的 VLAP 模型在选择具有关键内容的关键帧的能力方面表现出色，从而提高了视频 - 语言对齐的准确性，同时降低了推理延迟。在视频问答基准测试中，我们的 VLAP 网络优于最先进的方法。

Dec, 2023

利用冻结的双向语言模型实现零样本视频问答

本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法，它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合，通过屏蔽的语言模型进行零样本视频问答推理，相较于目前现有的方法，在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上，取得了显著的优势，同时在少样本和完全监督的情况下也表现出了有竞争力的结果。

Jun, 2022

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

VidLA: 视频 - 语言对齐的大规模实现

我们提出了 VidLA，这是一种用于大规模视频 - 语言对齐的方法，通过在不同时间分辨率上使用一组数据令牌，以层次化的方式捕捉短程和长程的时间依赖关系，并通过简单的双塔架构，使用预训练的图像 - 文本基础模型来提高最终性能。此外，我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集，包含不同长度的视频片段，以帮助在不同时间尺度下提取更好的表示。实验证明，我们的方法在多个检索基准上超过了现有的最先进方法，特别是在较长的视频上，并在分类基准上具有竞争力。

Mar, 2024

零样本视频问答的问题引导视觉描述

Q-ViD 是一种简单的视频问答方法，通过使用一个单一的指令感知开放式视觉语言模型（InstructBLIP）来处理视频问答问题，生成视频帧描述，并结合一个大型语言模型（LLM）进行多项选择问答，取得了与当前最先进模型相媲美甚至更高的性能。

Feb, 2024

跨模态相互知识迁移的视觉答案定位

本文提出了一种跨模态互相知识传递的跨模态互知跨度本地化方法 (MutualSL)，它包含视觉预测器和文本预测器两个部分，旨在通过构建一种双向动态损失函数以调整传递比例来提高语义知识的理解，以获取视频中自然语言问题的相关和简明时间剪辑答案。实验结果表明，该方法优于其他竞争同类方法，展示了其有效性。

Oct, 2022