May, 2023
面具还原:视频文本检索的合作语义补全
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval
Han Fang, Zhifei Yang, Xianghao Zang, Chao Ban, Hao Sun
TL;DR本文提出一个基于语义蒙版建模的 Mask for Semantics Completion (MASCOT) 框架,通过基于注意力的视频蒙版生成高信息和低信息蒙版,利用蒙版内容与文本上下文对齐,实现了蒙版语义信息的恢复,并通过双蒙版协同学习来提高模型的视频表示性能,在四个主要的文本 - 视频检索基准上取得了最先进的性能。