Sep, 2024
TokenBinder:基于一对多对齐范式的文本视频检索
TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm
TL;DR本研究解决了文本视频检索中常见的一对一对齐方法难以识别候选视频间细微差异的问题。提出的TokenBinder框架采用创新的二阶段一对多对齐方法,通过焦点融合网络动态对齐和比较多视频特征,从而捕捉更微妙的语境变化。实验证明,该方法在多个基准数据集上显著优于现有的最佳方法,展现了其在弥补信息差距方面的有效性。