Ferret-v2：针对较大语言模型进行指代和依存关系的改进基准

Apr, 2024

Ferret-v2：针对较大语言模型进行指代和依存关系的改进基准

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen...

TL;DR通过三个主要设计，Ferret-v2 对 Ferret 进行了重大升级，实现了任意分辨率的对齐、多粒度的视觉编码和三阶段的训练范式，从而在高分辨率处理和细粒度视觉处理方面提供了显著改进。

Abstract

While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil →

ferret-v2 grounding and referring multi-granularity visual encoding three-stage training paradigm high-resolution scaling

发现论文，激发创造

Ferret: 任意粒度引用和定位任何内容

我们介绍了 Ferret，这是一个新的多模态大型语言模型（MLLM），能够理解图像中任何形状或粒度的空间引用，并准确地确定开放词汇的描述。

Oct, 2023

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

Ferret-UI 是一种专门用于增强对移动用户界面（UI）屏幕理解的多模态大型语言模型（MLLM），它具备指代、基础和推理能力，并在学习样本、编码和任务执行方面表现出色。

Apr, 2024

Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知

Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.

Mar, 2024

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

Griffon：利用大型语言模型明示任何粒度下的所有对象位置

基于大规模视觉语言模型的对象感知与定位能力，我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon，该模型在细粒度的 RefCOCO 系列上达到了最先进的性能，并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。

Nov, 2023

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力

通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。

Feb, 2024

ClawMachine：提取视觉令牌作为实体进行指代和定位

ClawMachine 是一种新的方法，通过直接使用视觉令牌来编码实体，统一了视觉引用和定位的自动回归格式，并通过仅有解码器的架构进行学习，实现了对视觉引用和定位任务的竞争性表现，并减少了对训练数据的需求。此外，ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力，这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。

Jun, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

用大型语言模型实现细粒度视觉识别的民主化

使用大型语言模型作为代理，FineR 在语义细分类别推理方面体现出更好性能，优于几种先进的 FGVR 和语音与视觉助手模型，并展示了在野外和新领域中工作的潜力。

Jan, 2024