BriefGPT.xyz
Ask
alpha
关键词
visually grounded videoqa
搜索结果 - 1
可以相信你的回答吗?基于视觉的视频问答
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建
→
PDF
10 months ago
Prev
Next