BriefGPT.xyz
Ask
alpha
关键词
large vision-language foundation models
搜索结果 - 1
CoVLM:通过通信解码在大型语言模型中组合视觉实体和关系
我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。
PDF
8 months ago
Prev
Next