Griffon:利用大型语言模型明示任何粒度下的所有对象位置
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models to achieve nuanced visual and language referring, and outperforms expert models in object detection and counting.
Mar, 2024
当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案,即使用蜡笔提示进行指导调整,以提高对象级图像理解能力。此外,我们还提出了双重 QLoRA 学习策略,以在视觉指导调整过程中保持对象级图像理解能力,从而在零样本的多个视觉语言基准测试中取得了显著的进展。
Feb, 2024
最近大型视觉 - 语言模型(LVLMs)在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而,细粒度对象分类任务(例如,区分动物物种)的研究尚不足够,在下游任务中的重要性不够凸显。我们通过创建一个名为 FOCI(Fine-grained Object Classification)的难度较高的多项选择基准来弥补这一评估空白,该基准通过从现有的对象分类数据集中进行采样获得,并且通过 CLIP 模型挖掘负面标签以保持分类难度。FOCI 基准补充了五个流行的分类数据集,以及从 ImageNet-21k 中选择的四个领域特定的子集。我们对 12 个公开的 LVLMs 模型在 FOCI 基准上进行了评估,并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是,CLIP 模型的性能明显优于 LVLMs 模型。由于 LVLMs 的图像编码器来自这些 CLIP 模型,这暗示编码器与 LLM 之间在细粒度对象区分方面存在不足的对齐,需要使用更多细粒度注释的(预)训练数据。我们在 https://github.com/gregor-ge/FOCI-Benchmark 上发布了我们的代码。
Jun, 2024
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
一种新的多模式预训练和指令微调范式 Lyrics,通过细粒度的跨模态协作,将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中,同时,在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息,通过两阶段训练方案实现模态融合,从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。
Dec, 2023
该研究使用大规模视觉语言模型 (LVLMs) 来评估它们在识别相似对象和准确描述视觉特征方面的独特性和忠实度,并提出了文本检索增强分类 (TRAC) 框架以深入分析细粒度的视觉描述生成。研究结果表明,在生成细粒度描述方面,MiniGPT-4 比其他两个模型表现更好。
Apr, 2024
通过在上下文中引入视觉对象向量,我们提出了一种新的方法来引导大型语言模型,从而实现可控的对象级推理,消除了融合冗长图像区块特征的必要性,显著加速了训练。此外,我们还提出了使用对象表示进行区域级检索的方法,便于快速适应新对象而无需额外训练。我们的实验证明,我们的方法在参考对象分类和字幕生成性能上达到了竞争力,并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。
Jun, 2024
本文介绍了一种新的零样本学习框架,Fine-Grained Visual Prompting(FGVP),通过使用精确的掩码注释来改进视觉提示设计,并展示了在不同的基准测试上均优于传统方法的性能表现。
Jun, 2023
我们提出了一种新颖的框架,camo-perceptive 视觉语言框架(CPVLF),以探索 LVLM 在具有挑战性的伪装目标检测(COD)情景中是否可以在无需训练的情况下实现泛化。通过观察 LVLM 的泛化过程,我们发现由于其内部的幻觉问题,它会错误地感知伪装场景中的物体,产生虚假的概念。此外,由于 LVLM 并未专门针对伪装物体的精确定位进行训练,它在准确定位这些对象方面表现出一定的不确定性。因此,我们提出了一种链式视觉感知方法,从语言和视觉角度增强 LVLM 对伪装场景的感知,减少幻觉问题,并提高其准确定位伪装物体的能力。我们在三个广泛使用的 COD 数据集上验证了 CPVLF 的有效性,实验结果显示了 LVLM 在 COD 任务中的潜力。
Nov, 2023