音视频 LLM 用于视频理解

Dec, 2023

Audio-Visual LLM for Video Understanding

Fangxun Shu, Lei Zhang, Hao Jiang, Cihang Xie

TL;DR该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Abstract

This paper presents audio-visual llm, a multimodal large language model that takes both visual and auditory inputs for holistic video understandi

audio-visual llm multimodal large language model modality-augmented training video understanding end-to-end joint training

发现论文，激发创造

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

从图像到视频，多模态 LLMs 需要什么？

提出一种高效的方法，通过调整图像多模态语言模型的图像融合模块，利用图像多模态语言模型的先验知识，实现从图像到视频多模态语言模型的资源高效转换，从而提高视频多模态语言模型的时间理解能力，以更少的数据和资源进行训练。

Apr, 2024

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

VideoLLaMA 2: 在视频 LLMs 中推进时空建模与音频理解

本论文介绍了一种名为 VideoLLaMA 2 的视频大型语言模型，它通过嵌入空间 - 时间卷积 (STC) 连接器和联合训练音频分支来增强视频和音频任务中的空间 - 时间建模和音频理解能力，并在多个任务上展示了竞争性结果，进一步提升了多模态理解能力，为智能视频分析系统设定了新的标准。

Jun, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

多模态大型语言模型中文本和声音成分的推理研究

使用多模式语言模型（MLLMs）时，音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力，可能是因为 MLLM 将听觉和文本信息分别表示，从而切断了 LLM 到音频编码器的推理路径。

Jun, 2024

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Apr, 2024

Macaw-LLM：多模态语言模型与图像、音频、视频和文本混合

本研究提出 Macaw-LLM，一种新型的多模式学习模型，可以无缝整合视觉、音频和文本信息，其中主要包括三个模块：一种用于编码多模式数据的模态模块，一种利用预训练 LLM 的认知模块，和一种用于协调多样化表示形式的对齐模块，并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。

Jun, 2023

多模态自回归建模基于视觉单词

成功进行多模态自回归建模，并首次提出了视觉词概念，将视觉特征映射到 LLMs 词汇的概率分布，为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证，证明了我们提出方法的强大性能。

Mar, 2024