Jan, 2022

多模态视频字幕生成的端到端生成预训练

TL;DR提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。