E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

Nov, 2023

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer

Jacob Zhiyuan Fang, Skyler Zheng, Vasu Sharma, Robinson Piramuthu

TL;DR通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Abstract

To build scalable models for challenging real-world tasks, it is important to learn from diverse, multi-modal data in various forms (e.g., videos, text, and images). Among the existing works, a plethora of them h

scalable models multi-modal data efficient video-language model masked video modeling efficiency improvements

发现论文，激发创造

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

大型视觉 - 语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频 - LVLM 模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的 LVLM 模型高效演化为视频 - LVLM 模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

MiniVLM: 一个更小更快的视觉语言模型

本文提出 MiniVLM，一个轻量、快速的视觉 - 语言模型，采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比，模型大小减少 73％，推理时间成本降低 94％，在多个视觉 - 语言任务上准确率保持 94-97％。希望 MiniVLM 可以用于边缘应用。

Dec, 2020

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

多模态表示学习的遮蔽视觉和语言建模

本文研究如何使用掩码信号建模来实现视觉和语言（V + L）表示学习，提出了联合掩码视觉和语言建模的方法，通过不同的模态互相重构，隐式地学习语言标记和图像补丁的交叉模态对齐，并在各种 V + L 任务中实现了最先进的性能。

Aug, 2022