Paxion: 在视频 - 语言基础模型中修补动作知识

May, 2023

Paxion: 在视频 - 语言基础模型中修补动作知识

Paxion: Patching Action Knowledge in Video-Language Foundation Models

Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho...

TL;DR该研究提出了一种新型框架 Paxion，通过 Knowledge Patcher 和 Knowledge Fuser 模块来填补视频语言模型在动作知识理解方面存在的短板。研究使用 DVDM 目标训练 Knowledge Patcher，以提高模型对行为文本和视频帧的相关性编码能力，从而实现动作知识理解。实验结果表明，Paxion 和 DVDM 目标的使用有效地填补了多模态动作知识方面的差距，并在对象为中心的下游任务上保持或提高了性能。

Abstract

action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets →

action knowledge multimodal alignment video dynamics modeling knowledge patcher dvdm objective

发现论文，激发创造

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

Vamos: 视频理解的多功能行为模型

在研究中，我们提出了一种基于大型语言模型的学习框架，使用视频中提取的动作标签和自由形式的描述作为输入，证明了基于文本的视频表示在语言模型时代具有竞争力的表现，并在多个基准测试中取得了最先进的性能。

Nov, 2023

ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

本研究提出了首个基于姿势增强的视觉语言模型（VLM）用于视频动作识别，该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率，在动态学习预训练后准确率分别达到 96.11% 和 75.75%。

Aug, 2023

利用大型语言模型增强面向动态感知的文本到视频扩散

通过设计一个创新的动态场景管理器 (Dysen) 模块，该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换，从而丰富了视频的场景细节，并与主干的 T2V DM 相结合来实现高质量的文本到视频生成。

Aug, 2023

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024

语义视频预测中的模块化行动概念建模

该研究介绍了使用语义动作标签作为反向问题进行预测的方法，提出了一种名为模块化动作概念网络的视频预测模型，该模型可以生成对应的未来帧且无需边界框，还可以用于物体检测和高层次的认知任务。

Nov, 2020

文本视频分割的演员和行为模块化网络

本文提出了一种基于文本的视频分割方法，通过引入一个新的演员和动作的模块化网络，解决了语义不对称问题，同时提出了时间提案聚合机制，获得了单帧分割和全视频分割的最先进性能。

Nov, 2020

动词在行动：提高视频语言模型中动词理解能力

本研究提出了一个新的以动词为中心对比学习（Verb-Focused Contrastive，VFC）框架，以改善基于 CLIP 的视频语言模型的动词理解。该方法采用预训练的大型语言模型（LLMs）创建难样本进行跨模态对比学习，以及实施细粒度的动词短语对齐损失。该方法在三个下游任务上实现了零射击性能的最新成果，包括视频文本匹配、视频问答和视频分类。

Apr, 2023

基于风格转移的语音和视觉场景理解，用于机器人从视频中获取操作序列

本文介绍一种从指令视频中生成机器人动作序列的方法，用于实现人机协作，并展示了该方法在各种烹饪动作中的成功率达到 32%。

Jun, 2023