Sep, 2021

基于 Transformer 的视频语言预训练调查

TL;DR本文综述了基于 Transformer 的预训练方法在视频语言学习方面的应用,包括代理任务、下游任务和常用视频数据集,将 Transformer 模型分为单流和多流结构,并比较它们的性能。最后,我们分析和讨论了当前挑战和了可能的未来研究方向。