Feb, 2023

利用多模态引导在长视频中定位时刻

TL;DR本文研究了基于视频的语言表示的大规模 MAD 数据集。 现有的基于句子的方法在长视频中表现效果不佳,本文提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。该方法经实践证明,在 MAD 数据集上获得了更好的效果。