HERO: 视频 + 语言全方位表示的分层编码器预训练

EMNLPMay, 2020

HERO: 视频 + 语言全方位表示的分层编码器预训练

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu...

TL;DRHERO 是一个用于大规模视频 + 语言综合表示学习的新框架，能够通过跨模态变换器捕获视频帧的本地上下文和全局上下文，并经过多模态融合进行编码；在标准的遮蔽语言建模和遮蔽帧建模目标的基础上，还设计了两个新的预训练任务：视频 - 字幕匹配和帧顺序建模，并在 HowTo100M 和大规模电视数据集上进行联合训练以获得对多字符交互的复杂社会动态的深入理解。全面的实验表明，在不同领域的基准测试中，HERO 在基于文本的视频 / 视频片段检索、视频问答、视频和语言推理以及视频字幕生成任务中均达到了新的最佳性能，并且还引入了两个新的具有挑战性的基准测试 How2QA 和 How2R，这些测试集从各种多模式视频内容中收集而来。

Abstract

We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a →

video+language representation learning cross-modal transformer temporal transformer pre-training tasks multimodalities

发现论文，激发创造

OmniVL: 图像 - 语言和视频 - 语言任务的基础模型

OmniVL 提出了一种新的基础模型，它通过使用一种通用架构来支持图像语言和视频语言任务，采用了一种统一的基于 Transformer 的视觉编码器，以此来实现联合图像语言和视频语言的预训练，并展示了这种范式的好处，并且这种模型能够同时支持视觉任务，跨模态任务和多模态理解。

Sep, 2022

视频语料库中的时刻定位层级多模态编码器

本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Nov, 2020

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

基于教师推荐学习的目标关系图像视频字幕生成

本文提出了一个视频字幕生成系统，包括一种新颖的基于对象关系图的编码器和一种有效的训练策略，其中使用了教师推荐学习方法和外部语言模型来解决长尾问题，并在多个基准测试中取得最好的性能，实验证明我们的系统是有效的。

Feb, 2020

一体化：探索统一的视视频 - 语言预训练

介绍了一种基于 all-in-one Transformer 的视频 - 语言端到端模型，采用新的 token rolling 操作，实现了视频数据的时间表示方式，同时赋予模型能够处理多模态输入的能力。该模型通过 fine-tuning 能够在文本 - 视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到 state-of-the-art 的性能表现。

Mar, 2022

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017

视频预训练 Transformer：多模态预训练专家混合

本论文提出了一种名为 VPT 的模型，该模型使用多个编码器模型从视频中提取紧凑的嵌入向量，通过预测 YouTube 视频中的语音来训练，并在标准的下游任务基准测试中达到了最先进水平，并在模型中添加了更多的模态信息。

Mar, 2023

VLMo：混合模态专家的统一视觉语言预训练

本研究提出了统一的视觉 - 语言预训练模型 (VLMo)，通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明，VLMo 在各种视觉 - 语言任务中取得了最先进的结果。

Nov, 2021

OmniMAE：图像和视频单模型遮蔽预训练

使用遮盖自编码器训练简单的 Vision Transformer，能够在多个视觉模态下获得与单一模态相当或更好的视觉表示，而只需使用单一的预训练模型，大大简化架构并加快训练速度。

Jun, 2022

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019