Oct, 2023
迷失在翻译中:当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析
Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi
TL;DR通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。