幻觉减轻促进长期视频理解

Jun, 2024

Hallucination Mitigation Prompts Long-term Video Understanding

Yiwei Sun, Zhihang Liu, Chuanbin Liu, Bowei Pu, Zhihan Zhang...

TL;DR本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法，通过使用 CLIP 分数指导带有问题的帧采样过程，并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征，最终在 MovieChat 数据集上取得了 84.2％和 62.9％的全局和断点模式准确率，超过了官方基线模型的 29.1％和 24.1％，在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。

Abstract

Recently, multimodal large language models have made significant advancements in video understanding tasks. However, their ability to understand unprocessed long videos is very limited, primarily due to the diffi

multimodal large language models video understanding hallucination mitigation clip score long-term video question answering

发现论文，激发创造

时间洞察增强：减轻多模态大语言模型中的时间幻觉

通过提取和利用事件查询和提供的视频中的事件特定信息，我们介绍了一种创新的方法来解决多模态大型语言模型中发生的事件级幻觉问题，重点关注视频内容中的时间理解问题，在 Charades-STA 数据集上的评估表明，该研究不仅在解决多模态大型语言模型的关键限制方面提供了新的视角，还为在与时间相关的问题上评估多模态大型语言模型提供了一种定量可测量的方法。

Jan, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

CLIP-Hitchhiker 的长视频检索指南

本文旨在将图像 - 文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。

May, 2022

通过剧本进行零样本长片视频理解

MM-Screenplayer 是一种先进的视频理解系统，具备多模态感知能力，可以将任何视频转换为文本剧本表示形式。与以往的故事叙述方法不同，我们将视频内容以场景为基本单位进行组织，而不仅仅是视觉连续的镜头。此外，我们开发了一种 “回溯” 策略来重新评估和验证不确定信息，特别针对断点模式。MM-Screenplayer 在 CVPR'2024 Long-form Video Understanding（LOVEU）Track 1 挑战中取得了最高分，全球准确率为 87.5％，断点准确率为 68.8％。

Jun, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024