Jan, 2024

大型视觉 - 语言模型中的复合推理引导

TL;DR使用一种新颖的生成方法,我们对大型视觉语言模型(如 GPT-4)进行控制,以描述图像并进行组合推理,在 Winoground 数据集上优于其他嵌入式方法,并在最佳描述的增强下获得最高 10% 的准确率改进。