Nov, 2023

CoVLM:通过通信解码在大型语言模型中组合视觉实体和关系

TL;DR我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。