Nov, 2021

利用大规模视频转录进展高分辨率视频语言表示

TL;DR本文提出了一种高分辨率和多样化的视频-语言预训练模型(HD-VILA),它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互,取得了10个VL理解任务和2个文本到视觉生成任务的最新结果