从图像到视频，多模态 LLMs 需要什么？

Apr, 2024

从图像到视频，多模态 LLMs 需要什么？

From Image to Video, what do we need in multimodal LLMs?

Suyuan Huang, Haoxin Zhang, Yan Gao, Yao Hu, Zengchang Qin

TL;DR提出一种高效的方法，通过调整图像多模态语言模型的图像融合模块，利用图像多模态语言模型的先验知识，实现从图像到视频多模态语言模型的资源高效转换，从而提高视频多模态语言模型的时间理解能力，以更少的数据和资源进行训练。

Abstract

multimodal large language models (MLLMs) have demonstrated profound capabilities in understanding multimodal information, covering from image llms to the more complex →

multimodal large language models video llms image llms resource-efficient transition temporal adaptation

发现论文，激发创造

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像 - 文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024