Oct, 2024

VERIFIED:用于细粒度视频理解的视频语料库时刻检索基准

TL;DR本研究针对现有视频语料库时刻检索(VCMR)的粗粒度理解限制,提出了VERIFIED基准,挑战性更大的细粒度检索。通过自动视频文本注释管道和增强的静态动态模块,生成多样化的细粒度字幕,并实现高质量的数据注释,从而推动细粒度视频理解的发展。