MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练

Apr, 2022

MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval

Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu...

TL;DR本文应用了基于遮蔽的视觉建模（Masked visual modeling）技术在双编码器（dual-encoder）架构下进行视频文本预训练，并利用额外的视频编码器作为 “tokenizer” 去产生预测目标，并通过在空间和时间维度上进行推理来得到修正的视觉特征，以此提高局部视觉特征和跨模态对齐性，在四个数据集上均优于最先进的文本至视频检索方法。

Abstract

Dominant pre-training work for video-text retrieval mainly adopt the "dual-encoder" architectures to enable efficient retrieval, where two separate encoders are used to contrast global video and text representations, but ignore detailed local semantics. The recent success of image BERT

video-text retrieval masked visual modeling dual-encoder architecture local visual context cross-modality alignment

发现论文，激发创造

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023

使用遮蔽视觉建模的端到端视频 - 语言变压器的实证研究

本文系统研究了遮蔽视觉建模（MVM）在视频 - 语言（VidL）预训练中的应用，基于全面的端到端 VIdeO-LanguagE 变换器（VIOLET），提出了 8 种不同的 MVM 重构目标，从低级像素值到高级深度图、光流和潜在的视觉特征。实验结果表明，使用 MVM 目标进行预训练可以显著提高 VIOLETv2 模型的性能。

Sep, 2022

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

我们介绍了一个包含 60 亿个图像 - 文本配对的双语（中英文）数据集 BM-6B，通过提出一种新颖的分组聚合方法来处理此规模的数据集，大大减少了通信开销和 GPU 内存需求，从而提高了训练速度，我们预训练了一系列双语图像 - 文本基础模型，并在 BM-6B 上取得了提升视觉和文本理解能力的成果，这些模型在多模态检索和分类任务方面树立了新的基准，并且我们的最大模型在零样本分类设置下，在 ImageNet 上的 top-1 准确率分别超过了以前报道的 SoTA 方法 2.2% 和 21.1%。

Jan, 2024

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021