ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

ICCVAug, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data

Maya Varma, Jean-Benoit Delbrouck, Sarah Hooper, Akshay Chaudhari, Curtis Langlotz

TL;DR通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Abstract

vision-language models (VLMs), such as CLIP and ALIGN, are generally trained on datasets consisting of image-caption pairs obtained from the web. However, real-world multimodal datasets, such as healthcare data, are significantly more complex: each image (e.g. X-ray) is often paired wi

vision-language models pairwise complexity fine-grained relationships villa fine-grained reasoning tasks

发现论文，激发创造

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

通用粗细视觉语言模型设计：万能任务大师

这篇研究论文介绍了 VistaLLM，一种能够处理视觉输入并统一各种视觉 - 语言任务的通用视觉系统，它利用指令调整的方法解决了在单一框架中集成分割、多图像输入和粗粒度任务的问题。通过使用说明的图像分词器提取压缩和精炼特征，以及使用梯度感知的自适应采样技术将二进制分割掩膜表示为序列，VistaLLM 显著提高了性能，并在广泛的任务中实现了领先的结果。

Dec, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

大规模对抗训练用于视觉与语言表示学习

该研究提出了一种基于对抗训练的大规模视觉语言表示学习方法 VILLA，该方法在嵌入空间内进行对抗训练，取得了新的最优性能。

Jun, 2020

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

通过间隔配对关系建模增强医学视觉语言对比学习

通过关系增强的对比学习框架（RECLF），我们提出了一种可以模拟匹配间关系的医学图像表示学习方法，该方法利用医学图像报告作为弱监督，并通过图像 - 文本对齐实现。我们的结果表明，通过模拟匹配间关系，我们的 RECLF 方法可以学习到具有更好泛化能力的改进型医学图像表示。

Jan, 2024

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023