Mar, 2024

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

TL;DR视频时间定位(VTG)目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT,这是一种基于 GPT 的零训练或微调的方法,以减少人为偏见和冗余信息,并实现与有监督方法相媲美的性能。