Nov, 2023

野外活动视频查询

TL;DR本文针对非平衡场景中的视频查询中的活动检索进行研究,提出了一种视觉-语义嵌入网络,该网络包含两个新模块:视觉对齐模块通过全局对齐输入视频和所有活动的固定大小视觉库表示之间的关系,语义模块在输入视频和固定大小的语义活动表示之间进行对齐。通过匹配具有相等规模的视觉和语义活动表示的视频,我们不再在检索过程中忽略不常见的活动。实验结果表明,我们的方法在各类活动的非平衡活动检索基准上具有有效性。