利用时间语境进行视频动作识别

Apr, 2024

Leveraging Temporal Contextualization for Video Action Recognition

Minji Kim, Dongyoon Han, Taekyung Kim, Bohyung Han

TL;DRTC-CLIP 是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Abstract

pretrained vision-language models have shown effectiveness in video understanding. However, recent studies have not sufficiently leveraged essential temporal information from videos, simply averaging frame-wise representations or referencing consecutive frames. We introduce Temporally

pretrained vision-language models video understanding temporal contextualization video-conditional prompting action recognition

发现论文，激发创造

重新审视基于 CLIP 的图像到视频知识传递的时间建模

本论文基于 CLIP 模型，提出了一种名为 STAN 的时空建模机制，用于将图像 - 文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Jan, 2023

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

TempCLR：具有对比学习的时间对齐表示法

该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR，通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离，它可以探索时间动态，并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。

Dec, 2022

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

视频动作识别和检索的时间对比图学习

提出了一种名为 TCGL 的自监督学习方法，通过建立图模型来学习视频的时序表示，利用 “片段内” 和 “片段间” 的时间依赖作为时序表示学习的自监督信号，在大规模行动识别和视频检索基准测试中展示了显著的性能优势。

Jan, 2021

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019