May, 2023

面具还原:视频文本检索的合作语义补全

TL;DR本文提出一个基于语义蒙版建模的 Mask for Semantics Completion (MASCOT) 框架,通过基于注意力的视频蒙版生成高信息和低信息蒙版,利用蒙版内容与文本上下文对齐,实现了蒙版语义信息的恢复,并通过双蒙版协同学习来提高模型的视频表示性能,在四个主要的文本 - 视频检索基准上取得了最先进的性能。