EMNLPOct, 2022
RaP:红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval
Xing Wu, Chaochen Gao, Zijia Lin, Zhongyuan Wang, Jizhong Han...
TL;DR通过测量视频补丁和文本单元的冗余度,我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法,并通过冗余感知对比学习获得了显著的结果提升。