Dec, 2021

学习区域的视频文本预训练

TL;DR本研究提出一种新的视频文本表示学习模块(RegionLearner),能够在大规模视频文本对的预训练中考虑对象结构,并通过语义群聚来合并视觉特征,最终通过不同聚合区域之间的交互来建模,从而促进视频文本检索的效果。