3VL：使用树结构教授视觉与语言模型组合概念

Dec, 2023

3VL：使用树结构教授视觉与语言模型组合概念

3VL: using Trees to teach Vision & Language models compositional concepts

Nir Yellinek, Leonid Karlinsky, Raja Giryes

TL;DR通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Abstract

vision-language models (VLMs) have proved effective at aligning image and text representations, producing superior zero-shot results when transferred to many downstream tasks. However, these representations suffer some key shortcomings in →

vision-language models compositional language concepts tree-augmented vision-language differential relevance interpretability

发现论文，激发创造

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

May, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

基于视觉和语言的无需训练的组合图像检索

通过使用大规模视觉语言模型（VLMs）和大型语言模型（LLMs）并基于文本目标修改对参考图像进行标题化，然后通过 CLIP 进行检索，我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法，以训练免费的方式解决 CIR 问题，并取得了与有监督的方法相竞争的性能。

Oct, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024