May, 2023

自链接图像语言模型用于视频定位和问答

TL;DR本文提出了一种新框架 SeViLA,该框架利用单个图像 - 语言模型同时解决视频中的时间关键帧定位和问答,并通过双向链式推断和自我精炼解决了一些昂贵的标注问题,实现了五项视频 QA 和事件预测任务的最佳性能。