Qwen2-VL：在任何分辨率下增强视觉-语言模型对世界的感知

Sep, 2024

Qwen2-VL：在任何分辨率下增强视觉-语言模型对世界的感知

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan...

TL;DR本文提出了Qwen2-VL系列，这是对之前Qwen-VL模型的高级升级，解决了视觉处理中的预定分辨率方法的局限。该研究引入了动态分辨率机制，能够高效处理不同分辨率的图像，生成更准确的视觉表示，并实现了文本、图像和视频之间的有效信息融合。此外，Qwen2-VL系列在多模态基准上表现优异，与领先模型如GPT-4o和Claude3.5-Sonnet相媲美。

Abstract

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images o

发现论文，激发创造

Perceiver-VL: 迭代潜在注意力的高效视觉语言建模

Perceiver-VL是一个高效处理大量视觉和语言输入的框架，采用迭代潜在跨注意力技术，具有线性可扩展性和高效性，并在保持其竞争力能力的同时，在各种基准测试中取得最佳结果。

Nov, 2022

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

Qwen-VL: 具备多功能能力的前沿大规模视觉语言模型

介绍了Qwen-VL系列，这是一组大规模视觉语言模型，旨在感知和理解文本和图像，以提高多模态人工智能的性能。

Aug, 2023

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023

VCoder: 用于多模态大型语言模型的多用途视觉编码器

人类具有视觉感知的出色技能，近期多模态大型语言模型（MLLM）在视觉与语言任务上取得了令人印象深刻的性能，但在识别或计数图像中的实体方面存在一些问题。为了改善多模态LLM在感知和推理方面的准确性，我们提出使用VCoder作为多模态LLM的感知工具，该工具能够通过接收分割或深度图等感知方式来提升多模态LLM的感知能力。此外，我们利用COCO图像和现成的视觉感知模型输出来创建COST数据集，用于训练和评估MLLM在对象感知任务上的表现。最后，我们提供了大量的实验证据，证明了VCoder在对象级感知能力上相比其他多模态LLM（包括GPT-4V）的改进。我们公开发布了我们的数据集、代码和模型，以促进相关研究。

Dec, 2023

LLaVA-UHD: 一种感知任何纵横比和高分辨率图像的LMM

LLaVA-UHD是一种大型多模态模型，其中包括图像模块化策略、压缩模块和空间模式，它可以高效地感知任何宽高比和高分辨率的图像，并在多个基准测试中优于其他模型。

Mar, 2024

InternLM-XComposer2-4KHD: 处理从336像素到4K高清分辨率的创新大型视觉语言模型

InternLM-XComposer2-4KHD是一项具有里程碑意义的研究，通过引入动态分辨率和自动分片配置的新方法，将LVLM的分辨率能力提升到4K HD并在多个方面取得了卓越的性能提升。

Apr, 2024

Cambrian-1：全面开放、以视觉为中心的多模态LLMs研究

我们引入了Cambrian-1，一种以视觉为中心的多模态LLMs（MLLMs）系列，通过视觉指导调整作为接口，评估各种视觉表示，并提出了空间视觉聚合器（SVA）来进一步改进视觉定位，同时降低标记数量。此外，我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性，并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案，希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。

Jun, 2024

DenseFusion-1M：融合多种视觉专家的全面多模态感知

用于综合视觉感知的感知融合引擎Perceptual Fusion与密集描述生成引擎DenseFusion-1M结合，从未筛选过的LAION数据集选择了100万张高度代表性的图片，生成了密集描述数据集，通过Perceptual Fusion提供了显式的视觉元素的信息和高效的MLLM实现高级视觉感知能力，验证实验表明该引擎相比其竞争对手在各种视觉-语言基准测试中显著改善了现有MLLM的感知和认知能力。

Jul, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Aug, 2024