Oct, 2023

迷失在翻译中:当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

TL;DR通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。