VaQuitA: 提升 LLM 辅助视频理解中的对齐能力

Dec, 2023

VaQuitA: 提升 LLM 辅助视频理解中的对齐能力

VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding

Yizhou Wang, Ruiyi Zhang, Haoliang Wang, Uttaran Bhattacharya, Yun Fu...

TL;DR最近，基于语言模型的视频理解取得了令人瞩目的进展，这得益于大型语言模型（LLMs）的引入。然而，以往的研究重点主要集中在设计将视频特征映射到标记的投影层，这种方法既基础又低效。在我们的研究中，我们引入了一个最先进的框架 VaQuitA，旨在提高视频和文本信息之间的协同作用。在数据层面上，我们采用由 CLIP 分数排名引导的采样方法，而不是均匀采样帧，这样可以更好地选择与给定问题相一致的帧。在特征层面上，我们将可训练的视频感知器与 Visual-Query Transformer（简称 VQ-Former）集成在一起，以增强输入问题和视频特征之间的相互作用。我们还发现，将一个简单的提示 “Please be critical” 加入 LLM 输入可以大大增强其对视频的理解能力。我们的实验结果表明，VaQuitA 在零样本视频问答任务中始终保持着新的基准，并且能够与用户生成高质量的多轮视频对话。

Abstract

Recent advancements in language-model-based video understanding have been progressing at a remarkable pace, spurred by the introduction of Large Language Models (LLMs). However, the focus of prior research has been predominantly on devising a projection layer that maps video features t

language-model-based video understanding large language models vaquita video perceiver zero-shot video question-answering

发现论文，激发创造

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

Vista-LLaMA: 基于视觉标记等距离的可靠视频叙述器

对于大文本的视觉问题，当前的方法存在产生相关文本的概率较高的问题。本文提出了 Vista-LLaMA 框架，采用了一种新的注意机制，通过保持视觉和文本间的一致距离，特别在相对距离较长的情况下提高了视觉令牌对于文本生成的影响，从而显著降低了生成无关文本的概率。此外，还引入了顺序视觉投影器来处理视频的时间关系，并在四个挑战性的视频问题回答基准测试中表现出优越性能。

Dec, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024