Oct, 2023

大型语言模型是视觉推理协调器

TL;DR通过协调多个视觉-语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉-语言模型,从而实现令人印象深刻的视觉推理能力。