Jun, 2024

幻觉减轻促进长期视频理解

TL;DR本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和 62.9%的全局和断点模式准确率,超过了官方基线模型的 29.1%和 24.1%,在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。