VideoBERT: 视频与语言表征学习的联合模型

ICCVApr, 2019

VideoBERT: 视频与语言表征学习的联合模型

VideoBERT: A Joint Model for Video and Language Representation Learning

Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid

TL;DR本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征，提出了一种在无显式监督下学习高级特征的方法，并将其应用于多项任务，如动作分类和视频字幕生成等，取得了优越的成绩。

Abstract

self-supervised learning has become increasingly important to leverage the abundance of unlabeled data available on platforms like YouTube. Whereas most existing approaches learn low-level representations, we propose a joint →

self-supervised learning visual-linguistic model bert model action classification video captioning

发现论文，激发创造

ActBERT: 学习全局 - 局部的视频文本表示

本文介绍了 ActBERT 模型及其应用，它采用自监督学习方法从无标签的数据中提取语音和视频的联合表示，并在多项视频和语言任务中表现出卓越的性能。

Nov, 2020

使用统一条件模型的自训练视觉语言 BERTs

提出了一种自我训练的方法，用于从未标注的图像数据中训练 VL-BERT 模型，模型采用统一的有条件模型，能够执行零样本条件生成，通过该方法使用仅 300k 个未标注的额外数据，可以获得与训练了 300 万个图像数据的相似模型大小的模型相媲美或甚至更好的性能

Jan, 2022

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

使用自然语言的语言 - 视觉嵌入学习以理解电影

本文研究了三种不同的联合语言 - 视觉神经网络模型，使用 LSMDC16 电影数据集评估模型在自然语言图像 / 视频注释和检索任务中的性能，并在标准排名和多项选择测试中取得优异的结果。

Sep, 2016

使用对比双向变换器学习视频表示

本文提出了一种自监督学习方法，用于视频特征，与现有方法相比在下游任务中表现显著提高，通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况，以噪声对比估计取代 softma 损失函数，同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示，并且表明这样的跨模态训练可以进一步提高性能。

Jun, 2019

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024