Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

TL;DR利用图像 - 文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。