BriefGPT.xyz
Ask
alpha
关键词
long-term video question answering
搜索结果 - 1
幻觉减轻促进长期视频理解
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和
→
PDF
19 days ago
Prev
Next