ICCVOct, 2023

SCANet:面向弱监督视频时刻检索的场景复杂性感知网络

TL;DR视频时刻检索旨在定位与给定语言查询相对应的视频时刻,本文提出了一种名为 Scene Complexity Aware Network (SCANet) 的检索系统,它能够衡量每个视频中多个场景的 ' 场景复杂性 ',并生成适应每个视频场景复杂性的自适应提案,实验证明其在三个检索基准(Charades-STA、ActivityNet、TVR)上取得了最先进的性能,并展示了结合场景复杂性的有效性。