BriefGPT.xyz
Oct, 2023
大型语言模型是视觉推理协调器
Large Language Models are Visual Reasoning Coordinators
HTML
PDF
Liangyu Chen, Bo Li, Sheng Shen, Jingkang Yang, Chunyuan Li...
TL;DR
通过协调多个视觉-语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉-语言模型,从而实现令人印象深刻的视觉推理能力。
Abstract
visual reasoning
requires
multimodal perception
and
commonsense cognition
of the world. Recently, multiple
→