在多模态学习中利用视觉令牌扩展文本背景

Jun, 2024

在多模态学习中利用视觉令牌扩展文本背景

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang...

TL;DR使用 Visualized In-Context Text Processing (VisInContext) 技术能够有效地增加多模态大型语言模型中的上下文文本长度，减少 GPU 内存使用和浮点运算，同时在文档理解任务和顺序文档检索中展示了巨大的潜力。

Abstract

Training models with longer in-context lengths is a significant challenge for multimodal model due to substantial GPU memory and computational costs. This exploratory study does not present state-of-the-art models; rather, it introduces an innovative method designed to increase

multimodal model in-context text length large language models visincontext document understanding

发现论文，激发创造

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型

通过对视觉标记和训练效率的分析研究，提出了一种名为 Visual Context Compressor 的方法，通过压缩视觉标记来提高多模式模型的训练效率，最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。

Jun, 2024

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

多模态任务向量实现大规模多模态上下文学习

通过利用内插的大型多模态模型中的多模态任务向量，我们的研究工作实现了多模态的多射击上下文学习，并证明这些提取出的多模态任务向量可以随着压缩射击数的增加而提高性能，并且可以推广到类似的领域任务而不需要额外的上下文长度进行推理。

Jun, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

压缩上下文以增强大型语言模型的推理效率

使用选择性上下文方法（Selective Context）可以显著提高大型语言模型（LLMs）的推理效率，减少内存占用和推理时间，并在维持可比较性能的基础上实现对上下文成本的 50％降低，36％的推理内存使用率降低以及 32％的推理时间降低。

Oct, 2023

从文本到像素：MLLMs 中的长篇背景理解的进展

通过将文本序列压缩到视觉像素空间中的图像，SEEKER 旨在优化长文本的紧凑编码，以便于在固定的令牌长度预算内高效处理长文本，并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。

May, 2024

随着文本增加，需求加大：推理时间训练有助于长文本生成

通过在长文本生成过程中使用临时的 Lora 模块来嵌入信息，我们的提出的方法 Temp-Lora 有效地保留上下文知识，提高了生成质量，同时降低了计算成本。

Jan, 2024