Sep, 2023

针对长篇视频理解的自适应分词器的核心时间分段再探

TL;DR本文旨在提供一种针对长视频的通用和自适应采样方法,通过将视频视为语义一致的片段,基于核时序分割 (KTS) 的无监督和可扩展方法对长视频进行采样和标记化。我们在视频分类和时间动作定位等长视频理解任务上评估了我们的方法,显示出相对于现有方法的持续增益,并在长视频建模上取得了最先进的性能。