CVPRApr, 2022

电影理解的分层自监督表征学习

TL;DR本文介绍了一种面向电影理解的自监督视频学习方法,采用分层的预训练策略,在低层进行对比学习,高层则采用事件遮罩预测任务来预训练视频上下文模型,并在 VidSitu 基准测试中表现出更好的性能。同时,在 LVU 任务中,我们还展示了上下文化事件特征的有效性。