CoLLaVO: 蜡笔大规模语言与视觉模型

Feb, 2024

CoLLaVO: 蜡笔大规模语言与视觉模型

CoLLaVO: Crayon Large Language and Vision mOdel

Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

TL;DR当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Abstract

The remarkable success of large language models (LLMs) and instruction tuning drives the evolution of vision language models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether cu

large language models vision language models object-level image understanding vision language tasks crayon large language and vision model

发现论文，激发创造

大型语言模型是视觉推理协调器

通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。

Oct, 2023

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

大规模视觉语言模型的泛化与虚构通过迷彩镜头

我们提出了一种新颖的框架，camo-perceptive 视觉语言框架（CPVLF），以探索 LVLM 在具有挑战性的伪装目标检测（COD）情景中是否可以在无需训练的情况下实现泛化。通过观察 LVLM 的泛化过程，我们发现由于其内部的幻觉问题，它会错误地感知伪装场景中的物体，产生虚假的概念。此外，由于 LVLM 并未专门针对伪装物体的精确定位进行训练，它在准确定位这些对象方面表现出一定的不确定性。因此，我们提出了一种链式视觉感知方法，从语言和视觉角度增强 LVLM 对伪装场景的感知，减少幻觉问题，并提高其准确定位伪装物体的能力。我们在三个广泛使用的 COD 数据集上验证了 CPVLF 的有效性，实验结果显示了 LVLM 在 COD 任务中的潜力。

Nov, 2023

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024