ICCVJul, 2023

UniVTG:面向统一的视频 - 语言时序定位

TL;DR通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。