Dec, 2021

使用实体提示进行语言及视频预训练

TL;DR本文提出了一种高效且有效的视频和语言预训练框架——Align and Prompt,通过提出视频-文本对比(VTC)损失和提示实体建模(PEM)任务来更好地跨模态对齐,从而学习精细的区域-实体对齐,与以前的方法相比取得了显着性能提升。