少即是多：基于稀疏采样的 ClipBERT 视频与语言学习

Feb, 2021

少即是多：基于稀疏采样的 ClipBERT 视频与语言学习

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg...

TL;DR提出了一个 ClipBERT 的通用框架，通过稀疏采样实现了视频和语言任务的廉价端到端学习，该方法在多个数据集上进行的实验表明，与使用全长视频的现有方法相比，使用少量稀疏采样剪辑进行端到端学习通常更准确。

Abstract

The canonical approach to video-and-language learning (e.g., video question answering) dictates a neural model to learn from offline-extracted dense video features from vision models and text features from language models. These feature extractors are trained independently and usually

video-and-language learning clipbert sparse sampling end-to-end learning text-to-video retrieval

发现论文，激发创造

SwinBERT：基于稀疏注意力的端到端变压器模型用于视频字幕生成

本文提出了一种基于 SwineBERT 的视频字幕生成模型，该模型通过对稠密采样的视频帧进行变换来进行自适应学习，同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升，在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。

Nov, 2021

VideoBERT: 视频与语言表征学习的联合模型

本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征，提出了一种在无显式监督下学习高级特征的方法，并将其应用于多项任务，如动作分类和视频字幕生成等，取得了优越的成绩。

Apr, 2019

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

优化过的 CLIP 模型是高效的视频学习器

论文提出了一种用于显式建模时间序列的新型模块，通过视频精调 CLIP 模型，可以将图像级别的表示有效地转移到视频领域，取得了良好的实验效果。

Dec, 2022

CLIP 轻量级语义分割

通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Oct, 2023