LongLLaVA：通过混合架构高效扩展多模态大语言模型至1000幅图像

Sep, 2024

LongLLaVA：通过混合架构高效扩展多模态大语言模型至1000幅图像

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

TL;DR本研究针对多模态大语言模型（MLLMs）在视频理解、高分辨率图像理解及多模态代理中存在的长上下文能力不足问题，提出了一种新的混合模型架构，结合了Mamba和Transformer模块，并优化了数据构建与训练策略。研究表明，LongLLaVA能够在单个A100 80GB GPU上高效处理近1000幅图像，展现出良好的应用前景。

Abstract

Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and →

发现论文，激发创造

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了TinyGPT-V这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言-视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和GPU内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

LM4LV：一个用于低级图像任务的冻结大型语言模型

该研究论文提出了一种名为LM4LV的框架，它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务，展示了LLM在低层次视觉中的强大潜力，并且架起了MLLM和低层次视觉任务之间的桥梁。

May, 2024

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估MLLMs在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种MLLMs，并发现商业模型Gemini 1.5 Pro的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

MammothModa: 多模大语言模型

我们介绍了MammothModa，这是另一个多模态大型语言模型（MLLM），旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解：（i）在保持复杂语言理解的同时融入视觉能力：除了视觉编码器外，我们还将视觉注意力专家纳入LLM以增强其视觉能力。（ii）扩展上下文窗口以获得高分辨率和长持续时间的视觉特征：我们探索了视觉合并模块，以有效地减少高分辨率图像的标记数量，并引入了帧位置ID以避免位置插值。（iii）高质量的双语数据集：我们精心策划和筛选了一个高质量的双模态双语数据集，以减少视觉幻觉。通过上述方法，我们构建的MammothModa在主要的真实世界视觉语言基准测试中始终优于最先进的模型，例如LLaVA系列模型，而没有花里胡哨的东西。

Jun, 2024

可扩展的视觉语言建模单一变压器

SOLO是一种用于可伸缩视觉-语言建模的单一Transformer，其在扩展性上有效地解决了视觉-语言模型中的瓶颈问题，尤其在视觉数学推理方面表现出色。

Jul, 2024

Optimus: 通过气泡利用加速大规模多模态LLM训练

本研究解决了现有多模态大语言模型（MLLM）训练效率低下的问题，主要由于GPU的气泡现象和复杂的数据依赖性。论文提出了一种新的分布式MLLM训练系统Optimus，通过优化编码器计算调度，显著减少训练时间，实验结果显示，Optimus能使MLLM训练速度提升20.5%-21.3%。

Aug, 2024

LongVILA：为长视频扩展长期上下文视觉语言模型

本研究解决了多模态基础模型在处理长上下文时的局限。提出的LongVILA是一种全栈解决方案，通过引入多模态序列并行系统和五阶段模型训练流程，显著提高了长视频的上下文处理能力。实验结果表明，LongVILA在长视频字幕生成方面的分数提高了1.6倍，表明其在视觉语言模型技术上的重要潜力。

Aug, 2024

LongVILA：扩展长时间上下文视觉语言模型用于长视频

本研究针对多模态基础模型中长上下文能力的缺失提出了解决方案LongVILA，包含系统、模型训练和数据集开发三个方面。通过首个长上下文多模态序列并行系统，LongVILA在训练和推理中显著提升速度，并构建了大型视觉语言预训练数据和长视频指令跟随数据集，以支持其多阶段训练过程，最终实现了长视频描述的准确率显著提高。

Aug, 2024

LongVILA：扩展长视频的长上下文视觉语言模型

本研究针对多模态基础模型在长视频理解上的长上下文能力进行创新，提出了LongVILA，旨在通过算法与系统的协同设计解决这一问题。研究表明，LongVILA能够有效扩展视频帧数，从而大幅提升长视频的字幕评分，且其长上下文多模态序列并行系统在训练速度上优于现有技术，展现出广泛的应用潜力。

Aug, 2024