Jun, 2024

用多模态查询在视频中定位事件

TL;DR本研究介绍了一个用于视频事件定位的多模态查询基准(ICQ),该基准以多模态语义查询为输入,包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估,我们提出了 3 种适应方法,并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。