Feb, 2024

大型多模态模型中的支架坐标促进视觉 - 语言协调

TL;DR提出了一种 Scaffold 提示方案,通过在图像中覆盖点矩阵作为视觉信息锚点,并利用多维坐标作为文本位置参考,以促进视觉 - 语言协调,实验证明其在复杂的视觉 - 语言任务中优于 GPT-4V 与文本的 CoT 提示。