CVPRMar, 2023
利用非对齐文本进行弱监督视频表示学习
Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos
Sixun Dong, Huazhang Hu, Dongze Lian, Weixin Luo, Yicheng Qian...
TL;DR本文提出了一种基于 transformer,支持弱监督下视频理解的方法,主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。