Griffon：利用大型语言模型明示任何粒度下的所有对象位置

Nov, 2023

Griffon：利用大型语言模型明示任何粒度下的所有对象位置

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang...

TL;DR基于大规模视觉语言模型的对象感知与定位能力，我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon，该模型在细粒度的 RefCOCO 系列上达到了最先进的性能，并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。

Abstract

Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Vision-Language models. Current Large Vision Language Models (LVLMs) are predominantly constrained to grounding a single, pre-existing object, relying solely on data from Referring Expression Comprehension tasks. The limit

vision-language models large vision language models (lvlms)object perception localization dataset griffon

发现论文，激发创造

Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知

Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.

Mar, 2024

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

非洲还是欧洲的燕子？针对细粒度物体分类的大型视觉语言模型基准测试

最近大型视觉 - 语言模型（LVLMs）在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而，细粒度对象分类任务（例如，区分动物物种）的研究尚不足够，在下游任务中的重要性不够凸显。我们通过创建一个名为 FOCI（Fine-grained Object Classification）的难度较高的多项选择基准来弥补这一评估空白，该基准通过从现有的对象分类数据集中进行采样获得，并且通过 CLIP 模型挖掘负面标签以保持分类难度。FOCI 基准补充了五个流行的分类数据集，以及从 ImageNet-21k 中选择的四个领域特定的子集。我们对 12 个公开的 LVLMs 模型在 FOCI 基准上进行了评估，并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是，CLIP 模型的性能明显优于 LVLMs 模型。由于 LVLMs 的图像编码器来自这些 CLIP 模型，这暗示编码器与 LLM 之间在细粒度对象区分方面存在不足的对齐，需要使用更多细粒度注释的（预）训练数据。我们在 https://github.com/gregor-ge/FOCI-Benchmark 上发布了我们的代码。

Jun, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

通过对标题重写的方式，利用大型视觉语言模型进行微调来减轻细粒度的幻觉

本文介绍了 ReCaption, 一个用于减少视觉 - 语言模型中细粒度物体幻觉的框架，并通过实验证明其有效性。

Dec, 2023

大型视觉语言模型生成的描述的独特性和准确性探究

该研究使用大规模视觉语言模型 (LVLMs) 来评估它们在识别相似对象和准确描述视觉特征方面的独特性和忠实度，并提出了文本检索增强分类 (TRAC) 框架以深入分析细粒度的视觉描述生成。研究结果表明，在生成细粒度描述方面，MiniGPT-4 比其他两个模型表现更好。

Apr, 2024

OLIVE：物体级别的上下文视觉嵌入

通过在上下文中引入视觉对象向量，我们提出了一种新的方法来引导大型语言模型，从而实现可控的对象级推理，消除了融合冗长图像区块特征的必要性，显著加速了训练。此外，我们还提出了使用对象表示进行区域级检索的方法，便于快速适应新对象而无需额外训练。我们的实验证明，我们的方法在参考对象分类和字幕生成性能上达到了竞争力，并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。

Jun, 2024

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023

大规模视觉语言模型的泛化与虚构通过迷彩镜头

我们提出了一种新颖的框架，camo-perceptive 视觉语言框架（CPVLF），以探索 LVLM 在具有挑战性的伪装目标检测（COD）情景中是否可以在无需训练的情况下实现泛化。通过观察 LVLM 的泛化过程，我们发现由于其内部的幻觉问题，它会错误地感知伪装场景中的物体，产生虚假的概念。此外，由于 LVLM 并未专门针对伪装物体的精确定位进行训练，它在准确定位这些对象方面表现出一定的不确定性。因此，我们提出了一种链式视觉感知方法，从语言和视觉角度增强 LVLM 对伪装场景的感知，减少幻觉问题，并提高其准确定位伪装物体的能力。我们在三个广泛使用的 COD 数据集上验证了 CPVLF 的有效性，实验结果显示了 LVLM 在 COD 任务中的潜力。

Nov, 2023