Jun, 2024

AutoTVG:一种面向时间视频定位的新型视觉语言预训练范式

TL;DRAutoTVG 是一种新的视觉 - 语言预训练范式,旨在通过自动注释的未剪辑视频学习语义对齐和边界回归,从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。