Jun, 2024
AutoTVG:一种面向时间视频定位的新型视觉语言预训练范式
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding
Xing Zhang, Jiaxi Gu, Haoyu Zhao, Shicong Wang, Hang Xu...
TL;DRAutoTVG 是一种新的视觉 - 语言预训练范式,旨在通过自动注释的未剪辑视频学习语义对齐和边界回归,从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。