BriefGPT.xyz
大模型
Ask
alpha
关键词
regionlearner
搜索结果 - 1
学习区域的视频文本预训练
本研究提出一种新的视频文本表示学习模块(RegionLearner),能够在大规模视频文本对的预训练中考虑对象结构,并通过语义群聚来合并视觉特征,最终通过不同聚合区域之间的交互来建模,从而促进视频文本检索的效果。
PDF
3 years ago
Prev
Next