利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

CVPRDec, 2022

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang...

TL;DR本文介绍了一个名叫 BIKE 的，通过使用视频和文本之间的跨模态桥梁，通过视频设置自动补充的文字辅助属性，和通过文本确定带有时间明显性的位置，以增强视频表示，从而有效提高各种识别情景下的视频识别性能的创新框架。在六个流行的视频数据集中进行的广泛研究表明，我们的方法在各种识别方案中均实现了最先进的性能。

Abstract

vision-language models (VLMs) pre-trained on large-scale image-text pairs have demonstrated impressive transferability on various visual tasks. Transferring knowledge from such powerful VLMs is a promising direction for building effective →

vision-language models pre-training bike temporal concept spotting video recognition

发现论文，激发创造

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

多语言多模态预训练用于零样本跨语言视觉语言模型迁移

本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索，并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下，我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题，我们引入了多语言多模态预训练策略，并收集了一个新的多语言教学视频数据集（MultiHowTo100M）进行预训练。在 VTT 上的实验表明，我们的方法显著提高了非英语语言的视频搜索效果，而无需额外的注释。此外，当有多语言注释时，我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。

Mar, 2021

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

多模态大型语言模型对视频片段检索的惊人有效性

利用图像 - 文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

VindLU：一种实现视频与语言预训练的有效方法

该研究论文分析了现代视频和语言（VidL）模型设计的最重要因素，其中包括时空建模、多模态融合、预训练数据选择和细调等，发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要，提出了一种名为 VindLU 的有效 VidL 预训练新模型，达到了与现有模型可比甚至更好的性能表现，在多个任务上的性能指标均表现优异。

Dec, 2022

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020