VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

Nov, 2021

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang...

TL;DRVIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Abstract

A great challenge in video-language (VidL) modeling lies in the disconnection between fixed video representations extracted from image/video understanding models and downstream VidL data. Recent studies try to mitigate this disconnection via end-to-end training. To make it computationa

video-language modeling end-to-end training violet temporal dynamics video transformer

发现论文，激发创造

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

时尚领域的遮蔽视觉语言变压器

设计一种面向时尚领域的多模式表达模型，使用视觉转换器架构代替预训练模型 BERT，实现端到端框架，并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型（如 ResNet），能轻松推广到各种匹配和生成任务中，并得到了提取（rank@5: 17%）和识别（准确度: 3%）任务结果的明显改进。

Oct, 2022

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023

MaskViT: 视频预测的掩蔽视觉预训练

本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Jun, 2022

LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模

本文提出了一种名为 LAVENDER 的统一的视觉 - 语言框架，它使用遮蔽语言建模作为所有预训练及下游任务的共同接口，从而实现了简化的模型架构，并在 14 个视频 - 语言基准测试中取得了竞争力的表现。

Jun, 2022

VL-BEiT: 生成式视觉 - 语言预训练

提出了一种称为 VL-BEiT 的视觉语言基础模型，使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

训练端到端的视觉语言变换器的实证研究

该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Nov, 2021

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023