Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知

Mar, 2024

Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang...

TL;DRGriffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.

Abstract

large vision language models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and

large vision language models image resolution object referring visual-language co-referring multimodal perception

发现论文，激发创造

Griffon：利用大型语言模型明示任何粒度下的所有对象位置

基于大规模视觉语言模型的对象感知与定位能力，我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon，该模型在细粒度的 RefCOCO 系列上达到了最先进的性能，并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。

Nov, 2023

Dragonfly: 多分辨率缩放强力推进大型视觉 - 语言模型

通过引入 Dragonfly，这篇论文提出了一种新的大型多模态模型架构，利用多分辨率视觉编码和放大补丁选择的策略来增强细粒度的视觉理解，从而提高对图像区域的推理能力，并取得了与其他架构相媲美或更好的性能，为未来的视觉指导对齐研究提供了洞见。

Jun, 2024

Ferret-v2：针对较大语言模型进行指代和依存关系的改进基准

通过三个主要设计，Ferret-v2 对 Ferret 进行了重大升级，实现了任意分辨率的对齐、多粒度的视觉编码和三阶段的训练范式，从而在高分辨率处理和细粒度视觉处理方面提供了显著改进。

Apr, 2024

通过文本生成解决视觉驱动对话中的引用

通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型（VLMs）的话语处理能力，并使用预训练的 VLMs 在零样本情况下识别参照物，从而提高了参照的准确性和效果。

Sep, 2023

大型多模态模型的关键要素：图像分辨率和文本标签

本研究提出了一种名为 Monkey 的多模态模型，可以提高输入分辨率，并通过多级描述生成方法，提供丰富的信息以帮助模型学习场景和物体之间的上下文关联。在广泛的测试中，Monkey 在图像字幕生成、通用视觉问答和面向文档的视觉问答等基本任务上展现了竞争性的性能。

Nov, 2023

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023

DynRefer: 通过动态分辨率探索区域级多模态任务

通过动态分辨率方法（DynRefer）来改善区域级多模态任务的高精确度指代，提高多模态模型的表示适应性，并在多个区域级多模态任务上取得新的最先进结果。

May, 2024

像素对齐的语言模型

本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Dec, 2023

利用视觉 - 语言基础模型进行精细化下游任务

本文提出了基于正 / 负提示公式的多任务微调策略来进一步利用视觉语言基础模型的能力，以解决 CLIP 等模型在细粒度属性检测和定位等下游任务中遇到的问题，并在 CUB200-2011 数据集上提高分类性能。

Jul, 2023

ClawMachine：提取视觉令牌作为实体进行指代和定位

ClawMachine 是一种新的方法，通过直接使用视觉令牌来编码实体，统一了视觉引用和定位的自动回归格式，并通过仅有解码器的架构进行学习，实现了对视觉引用和定位任务的竞争性表现，并减少了对训练数据的需求。此外，ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力，这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。

Jun, 2024