Dec, 2023
基于多模态信息的时间句子定位在长视频中的基础调度
Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos
Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia...
TL;DR通过使用多模态信息,我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法,通过引导 LLM 进行 TSG,提高了推理能力和理解 TSG 任务的性能。