从文本到像素：MLLMs 中的长篇背景理解的进展

May, 2024

从文本到像素：MLLMs 中的长篇背景理解的进展

From Text to Pixel: Advancing Long-Context Understanding in MLLMs

Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang

TL;DR通过将文本序列压缩到视觉像素空间中的图像，SEEKER 旨在优化长文本的紧凑编码，以便于在固定的令牌长度预算内高效处理长文本，并在理解长格式多模输入和生成长格式文本输出方面胜过所有现有专有和开源 MLLMs。

Abstract

The rapid progress in multimodal large language models (MLLMs) has significantly advanced their ability to process and understand complex visual and textual information. However, the integration of multiple image

multimodal large language models seeker textual information visual pixel space long-form multimodal input

发现论文，激发创造

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对 API 模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

浏览和专注：通过 prior-LLM 上下文融合理解多模态内容

通过两阶段的浏览和集中的方法，在 Mulitmodal Large Language Models 中集成多模态上下文信息，改善对多图像输入的理解，显著提高准确性。

Feb, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023