May, 2023

VideoOFA: 为视频到文本生成进行的两阶段预训练

TL;DR该研究提出了一种新的两阶段预训练框架来生成视频描述和回答问题,称为 VideoOFA 模型,在大规模图像 - 文本数据上预先训练表示学习,然后在中间视频 - 文本预训练阶段仅适应于视频数据来学习时空推理等视频特定技能,这使得该模型在四个视频描述基准测试中实现了新的最优表现,并在两个开放式的视频问答数据集上优于现有模型,展示了其作为通用视频 - 文本模型的泛化能力。