Jun, 2024

VideoHallucer:评估大型视频语言模型中的内在和外在幻觉

TL;DR最近多模态大型语言模型在视频理解方面取得了重要进展,但这些模型常受到 “幻觉” 的困扰,本文介绍了 VideoHallucer,它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估 11 个大规模视频语言模型,我们发现当前的模型大多存在幻觉问题,并且对于探测外在真实幻觉的能力,扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力,却提供了有限的改进。