CVPRMar, 2023

利用非对齐文本进行弱监督视频表示学习

TL;DR本文提出了一种基于 transformer,支持弱监督下视频理解的方法,主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。