Oct, 2024
将1对N关系分解为N个1对1关系的文本视频检索研究
Decomposing Relationship from 1-to-N into N 1-to-1 for Text-Video
Retrieval
TL;DR本文解决了文本视频检索(TVR)中视频与文本模态之间固有差异导致匹配不准确的问题。提出了一个新框架TV-ProxyNet,通过将传统的1对N关系转变为N个1对1关系,提高了查询的精度与覆盖范围。实验结果表明,该方法在MSRVTT和ActivityNet Captions上达到了最先进的表现,验证了其在语义映射和减少错误倾向方面的有效性。