大型多模态模型的关键要素：图像分辨率和文本标签

Nov, 2023

大型多模态模型的关键要素：图像分辨率和文本标签

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang...

TL;DR本研究提出了一种名为 Monkey 的多模态模型，可以提高输入分辨率，并通过多级描述生成方法，提供丰富的信息以帮助模型学习场景和物体之间的上下文关联。在广泛的测试中，Monkey 在图像字幕生成、通用视觉问答和面向文档的视觉问答等基本任务上展现了竞争性的性能。

Abstract

large multimodal models have demonstrated impressive capabilities in understanding general vision-language tasks. However, due to the limitation of supported input resolution (e.g., 448 x 448) as well as the inex

large multimodal models input resolution monkey description generation method contextual association

发现论文，激发创造

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Mar, 2024

Dragonfly: 多分辨率缩放强力推进大型视觉 - 语言模型

通过引入 Dragonfly，这篇论文提出了一种新的大型多模态模型架构，利用多分辨率视觉编码和放大补丁选择的策略来增强细粒度的视觉理解，从而提高对图像区域的推理能力，并取得了与其他架构相媲美或更好的性能，为未来的视觉指导对齐研究提供了洞见。

Jun, 2024

InternLM-XComposer2-4KHD: 处理从 336 像素到 4K 高清分辨率的创新大型视觉语言模型

InternLM-XComposer2-4KHD 是一项具有里程碑意义的研究，通过引入动态分辨率和自动分片配置的新方法，将 LVLM 的分辨率能力提升到 4K HD 并在多个方面取得了卓越的性能提升。

Apr, 2024

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

LLaVA-UHD: 一种感知任何纵横比和高分辨率图像的 LMM

LLaVA-UHD 是一种大型多模态模型，其中包括图像模块化策略、压缩模块和空间模式，它可以高效地感知任何宽高比和高分辨率的图像，并在多个基准测试中优于其他模型。

Mar, 2024

超高像素大型多模态模型

高分辨率是大型多模式模型（LMMs）的基础，本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

Jun, 2024

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知

Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.

Mar, 2024

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023