Oct, 2023

GPT-4V中超凡的视觉基础通过一组标记的提示释放

TL;DR我们提出了Set-of-Mark(SoM),一种新的视觉提示方法,用于释放大型多模态模型(如GPT-4V)的视觉连接能力。