ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

Nov, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

ViLaM: A Vision-Language Model with Enhanced Visual Grounding and Generalization Capability

Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang

TL;DR该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Abstract

vision-language models have revolutionized human-computer interaction and shown significant progress in multi-modal tasks. However, applying these models to complex visual tasks like medical image analysis remain

vision-language models vilam instruction tuning medical image analysis zero-shot learning

发现论文，激发创造

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

VisionLLaMA：一个统一的视觉任务 LLaMA 接口

该研究论文介绍了一种基于转换器架构的大型语言模型，探讨了该转换器是否能够用于处理二维图像，并提出了一种名为 VisionLLaMA 的类似 LLaMA 的视觉转换器，用于解决各种视觉任务，并在图像生成中展现出显著的改进。该研究代码将在指定的 URL 上发布。

Mar, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

使用预训练视觉语言模型的医学图像理解：一项全面研究

本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力，发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示，可实现知识跨越领域，改进泛化能力，对新对象的识别有所优化。此外，通过自动化生成医学提示的三种方法，可以将专家级的医学知识和图像特定信息注入提示语中，进行细粒度的信息定位，试验表明，与默认提示相比，巧妙设计的医学提示显著提高了零样本性能，且微调模型超过了受监督的模型。

Sep, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022