Sep, 2024

事件幻觉:诊断视频大型语言模型中的事件幻觉

TL;DR本研究聚焦于视频大型语言模型(VideoLLMs)中的幻觉现象,填补了这一领域与静态图像模型之间的研究空白。我们提出了一个新的基准EventHallusion,专注于评估VideoLLMs在视频事件理解中的幻觉问题,并提出了一种简单有效的方法——时序对比解码(TCD),显著改善了模型在该基准上的性能。研究发现,开放源模型面临严重幻觉问题,而闭源模型表现更佳。