Dec, 2023

基于多模态信息的时间句子定位在长视频中的基础调度

TL;DR通过使用多模态信息,我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法,通过引导 LLM 进行 TSG,提高了推理能力和理解 TSG 任务的性能。