BriefGPT.xyz
Ask
alpha
关键词
q-vid
搜索结果 - 1
零样本视频问答的问题引导视觉描述
Q-ViD 是一种简单的视频问答方法,通过使用一个单一的指令感知开放式视觉语言模型(InstructBLIP)来处理视频问答问题,生成视频帧描述,并结合一个大型语言模型(LLM)进行多项选择问答,取得了与当前最先进模型相媲美甚至更高的性能。
PDF
5 months ago
Prev
Next