Jun, 2024
多模态大型语言模型对视频片段检索的惊人有效性
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval
Meinardus Boris, Batra Anil, Rohrbach Anna, Rohrbach Marcus
TL;DR利用图像 - 文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。