BriefGPT.xyz
Nov, 2021
利用大规模视频转录进展高分辨率视频语言表示
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
HTML
PDF
Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu...
TL;DR
本文提出了一种高分辨率和多样化的视频-语言预训练模型(HD-VILA),它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互,取得了10个VL理解任务和2个文本到视觉生成任务的最新结果
Abstract
We study joint
video
and
language
(VL)
pre-training
to enable cross-modality learning and benefit plentiful downstream VL tasks. Existing
→