Feb, 2024

统一潜在和词典表示以实现有效的视频文本检索

TL;DR该研究提出了UNIFY框架,通过学习词库表示来捕捉细粒度语义概念,并结合潜在表示和词库表示的优势进行视频文本检索。实验证明,UNIFY框架大大优于先前的视频文本检索方法,在MSR-VTT和DiDeMo上分别提高了4.8%和8.2%的Recall@1。