SIGIRApr, 2022

通过单帧注释从文本查询中检索视频时刻

TL;DR本文提出一种称为 “glance annotation” 的新型注释范式,通过将输入的视频切分成多个片段,并利用对比学习的 ViGA 方法,得到具有高性能的视频片段检索结果。