Mar, 2024

GPTSee: 通过基于描述的相似特征增强时刻检索和亮点检测

TL;DR通过将生成的视频描述和查询语句在第二阶段的Transformer编码器-解码器中计算语义相似度并将高相似度的视频帧转换为位置信息,我们的方法在时刻检索和重点检测任务中表现出色,超过了传统方法Moment-DETR的定位准确性。