事件幻觉：诊断视频大型语言模型中的事件幻觉

Sep, 2024

事件幻觉：诊断视频大型语言模型中的事件幻觉

EventHallusion: Diagnosing Event Hallucinations in Video LLMs

Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang

TL;DR本研究聚焦于视频大型语言模型（VideoLLMs）中的幻觉现象，填补了这一领域与静态图像模型之间的研究空白。我们提出了一个新的基准EventHallusion，专注于评估VideoLLMs在视频事件理解中的幻觉问题，并提出了一种简单有效的方法——时序对比解码（TCD），显著改善了模型在该基准上的性能。研究发现，开放源模型面临严重幻觉问题，而闭源模型表现更佳。

Abstract

Recently, Multimodal Large Language Models (MLLMs) have made significant progress in the video comprehension field. Despite remarkable content reasoning and instruction following capabilities they demonstrated, the hallucination problem of these VideoLLMs is less explored compared with its counterpart in the image domain. To mitigate this gap, we first propo

发现论文，激发创造

重新审视视频语言理解中的 “视频

通过提出atemporal probe模型，本文探讨了视频和语言任务中现有的模型的局限性和潜力，并发现即使在面向较深层次视频理解的基准测试中，理解事件时间通常也不是实现强大或最新技术的性能所必需的。

Jun, 2022

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频-文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

时间洞察增强：减轻多模态大语言模型中的时间幻觉

通过提取和利用事件查询和提供的视频中的事件特定信息，我们介绍了一种创新的方法来解决多模态大型语言模型中发生的事件级幻觉问题，重点关注视频内容中的时间理解问题，在Charades-STA数据集上的评估表明，该研究不仅在解决多模态大型语言模型的关键限制方面提供了新的视角，还为在与时间相关的问题上评估多模态大型语言模型提供了一种定量可测量的方法。

Jan, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

基于事件理解的视频数据集综述

通过调查105个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

走向面向事件的长视频理解

通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集Event-Bench以及使用合并的、事件密集型视频指令来增强视频MLLMs的低成本方法VIM，本研究表明GPT-4o模型超过了最佳开源模型41.42％，在Event-Bench上表现出53.33的整体准确率，优于最先进的开源模型和GPT-4V。

Jun, 2024

VideoHallucer：评估大型视频语言模型中的内在和外在幻觉

最近多模态大型语言模型在视频理解方面取得了重要进展，但这些模型常受到“幻觉”的困扰，本文介绍了VideoHallucer，它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估11个大规模视频语言模型，我们发现当前的模型大多存在幻觉问题，并且对于探测外在真实幻觉的能力，扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力，却提供了有限的改进。

Jun, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024

E.T.基准：迈向开放式事件级视频语言理解

本研究解决了现有视频理解基准缺乏细粒度事件级评估和任务多样性的问题。我们提出了E.T.基准，这是一个大规模的高质量开放式事件级视频理解基准，包含12项任务下的7.3K样本和7K视频，提供全面评估。评估结果表明，现有的先进模型在解决细粒度任务时表现不佳，同时提出的E.T. Chat模型和指令调优数据集在多个场景中显示出优越的性能。

Sep, 2024