Vamos: 视频理解的多功能行为模型

Nov, 2023

Vamos: Versatile Action Models for Video Understanding

Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee...

TL;DR在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Abstract

What makes good video representations for video understanding, such as anticipating future activities, or answering video-conditioned questions? While earlier approaches focus on end-to-end learning directly from

video representations video understanding language models action models text-based representations

发现论文，激发创造

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024

ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

本研究提出了首个基于姿势增强的视觉语言模型（VLM）用于视频动作识别，该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率，在动态学习预训练后准确率分别达到 96.11% 和 75.75%。

Aug, 2023

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

语言模型引导的可解释视频行为推理

通过语言模型引导的可解释的动作识别框架 (LaIAR)，提高了视频模型的性能和可解释性。

Apr, 2024

TEMOS: 从文本描述生成多样化的人类动作

本文介绍了使用文本描述生成多样的 3D 人类动作的方法，并提出了 TEMOS 框架，它是一种基于变分自编码器的文本条件生成模型，可以产生多种不同的人体动作，实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。

Apr, 2022

VaQuitA: 提升 LLM 辅助视频理解中的对齐能力

最近，基于语言模型的视频理解取得了令人瞩目的进展，这得益于大型语言模型（LLMs）的引入。然而，以往的研究重点主要集中在设计将视频特征映射到标记的投影层，这种方法既基础又低效。在我们的研究中，我们引入了一个最先进的框架 VaQuitA，旨在提高视频和文本信息之间的协同作用。在数据层面上，我们采用由 CLIP 分数排名引导的采样方法，而不是均匀采样帧，这样可以更好地选择与给定问题相一致的帧。在特征层面上，我们将可训练的视频感知器与 Visual-Query Transformer（简称 VQ-Former）集成在一起，以增强输入问题和视频特征之间的相互作用。我们还发现，将一个简单的提示 “Please be critical” 加入 LLM 输入可以大大增强其对视频的理解能力。我们的实验结果表明，VaQuitA 在零样本视频问答任务中始终保持着新的基准，并且能够与用户生成高质量的多轮视频对话。

Dec, 2023