CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

Nov, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen...

TL;DR我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Abstract

A remarkable ability of human beings resides in compositional reasoning, i.e., the capacity to make "infinite use of finite means". However, current large vision-language foundation models (VLMs) fall short of su

compositional reasoning large vision-language foundation models covlm communication tokens visual perception

发现论文，激发创造

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

大型语言模型是视觉推理协调器

通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。

Oct, 2023

VoCo-LLaMA：面向大型语言模型的视觉压缩

基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation，实现了视觉压缩并提高推理效率，能够理解时间相关性，在多模态应用中具有广泛的潜力。

Jun, 2024

ConMe: 对现代 VLMs 的组合推理重新思考的评估

我们提出了一种新的数据生成流水线 ConMe，利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题，并通过与同类模型协同对话揭示其弱点，建立了一个稳健的复合推理基准，验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。

Jun, 2024

CogCoM：通过一系列操作训练大型视觉语言模型深入细节

通过一系列的操作，视觉 - 语言模型（VLMs）利用可靠的视觉推理生成可追溯错误原因的可解释路径，实现了最新技术水平的性能。

Feb, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024