Mar, 2023

视频预训练 Transformer:多模态预训练专家混合

TL;DR本论文提出了一种名为 VPT 的模型,该模型使用多个编码器模型从视频中提取紧凑的嵌入向量,通过预测 YouTube 视频中的语音来训练,并在标准的下游任务基准测试中达到了最先进水平,并在模型中添加了更多的模态信息。