LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型

Jun, 2024

LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi...

TL;DR通过对视觉标记和训练效率的分析研究，提出了一种名为 Visual Context Compressor 的方法，通过压缩视觉标记来提高多模式模型的训练效率，最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。

Abstract

While significant advancements have been made in compressed representations for text embeddings in large language models (LLMs), the compression of visual tokens in large multi-modal models (LMMs) has remained a largely overlooked area. In this work, we present the study on the analysi

compressed representations visual tokens training efficiency redundancy llavolta

发现论文，激发创造

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少

通过减少视觉标记并合并相关标记，我们提出了一种自适应的视觉标记压缩方法 PruMerge，可以显著减少可视标记的数量并保持相似的模型性能。

Mar, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

大型视觉 - 语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频 - LVLM 模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的 LVLM 模型高效演化为视频 - LVLM 模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

LLaMA-VID: 大型语言模型中的图像抵值 2 个令牌

通过引入 LLaMA-VID 方法处理视频和图像理解中的标记生成挑战，减轻了长视频处理中的计算负担，并证明在大多数基于视频或图像的基准测试中能超越之前的方法。

Nov, 2023

超高像素大型多模态模型

高分辨率是大型多模式模型（LMMs）的基础，本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

Jun, 2024

在多模态学习中利用视觉令牌扩展文本背景

使用 Visualized In-Context Text Processing (VisInContext) 技术能够有效地增加多模态大型语言模型中的上下文文本长度，减少 GPU 内存使用和浮点运算，同时在文档理解任务和顺序文档检索中展示了巨大的潜力。

Jun, 2024

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024