BriefGPT.xyz
Ask
alpha
关键词
videoqa benchmarks
搜索结果 - 1
基于大型多模型的弱监督高斯对比定位的视频问答
提出了一种新颖的弱监督框架,用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答,通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻,并利用高斯对比基础模块学习视频的时间结构,将问题关键帧作为正样本作为大型多模态模型的视
→
PDF
6 months ago
Prev
Next