Jan, 2024

基于大型多模型的弱监督高斯对比定位的视频问答

TL;DR提出了一种新颖的弱监督框架,用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答,通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻,并利用高斯对比基础模块学习视频的时间结构,将问题关键帧作为正样本作为大型多模态模型的视觉输入,实验证明该框架相比于先前最先进的方法取得了显著的改进。