Nov, 2023
CoVLM:通过通信解码在大型语言模型中组合视觉实体和关系
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen...
TL;DR我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。