Feb, 2024

LSTP:语言引导的时空提示学习长文 视频文本理解

TL;DR通过引入一种名为语言导向的时空提示学习(LSTP)的新方法,利用时间信息高效提取相关视频内容,并巧妙捕捉视觉和文本元素之间的复杂空间关系,从而显著提高计算效率、时间理解和时空对齐,通过两个挑战性任务的实证评估,证明了我们提出的LSTP范型在视频问答和视频中的时间问题定位方面具有卓越的性能、速度和多功能性。