基于可学习对齐的隐式时间建模视频识别

Apr, 2023

基于可学习对齐的隐式时间建模视频识别

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu...

TL;DR本文提出了一种新颖的隐式学习对齐（ILA）方法，可在视频中实现高效的空间自注意力，避免了昂贵或不充足的时间自注意力。在 Kinetics-400 上，提出的 ILA 与 Swin-L 和 ViViT-H 相比，仅使用更少的 FLOPs 即可实现 88.7％的 top-1 准确率。

Abstract

Contrastive language-image pretraining (clip) has demonstrated remarkable success in various image tasks. However, how to extend clip with effective →

clip temporal modeling implicit learnable alignment video attention kinetics-400

发现论文，激发创造

重新审视基于 CLIP 的图像到视频知识传递的时间建模

本论文基于 CLIP 模型，提出了一种名为 STAN 的时空建模机制，用于将图像 - 文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Jan, 2023

学习暗示性时间对齐用于小样本视频分类

本文提出了一种新的基于匹配的少样本学习策略，结合隐式时间对齐和上下文编码模块以及多任务损失，用于解决视频分类中在有限标注情况下空间 - 时间表征的学习问题，并在两个具有挑战性的基准测试中证明了其优越性。

May, 2021

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

基于时间对齐视频学习

本研究提出了一种自监督学习方法，利用时间视频对齐作为前提任务，同时利用帧级别和视频级别信息，通过时间对齐损失和时间正则化项的结合来训练编码器网络，通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。

Mar, 2021

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024