Jan, 2024
高效且有效的文本到视频检索:基于粗粒度到细粒度的视觉表征学习
Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning
TL;DR通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的Pearson约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近50倍。