Oct, 2024
让我说完我的句子:通过整体文本理解进行视频时间定位
Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text
Understanding
TL;DR本研究针对视频时间定位(VTG)中的文本查询与视频帧匹配问题,提出了一种整合整体文本理解的新方法。通过引入视觉帧级门控机制和跨模态对齐损失,我们改进了视频帧与文本查询之间的细致关联,显著提高了模型在VTG基准测试中的表现,强调了整体文本理解在定位语义重要视频部分中的关键作用。