Feb, 2024
大型多模态模型中的支架坐标促进视觉 - 语言协调
Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
Xuanyu Lei, Zonghan Yang, Xinrui Chen, Peng Li, Yang Liu
TL;DR提出了一种 Scaffold 提示方案,通过在图像中覆盖点矩阵作为视觉信息锚点,并利用多维坐标作为文本位置参考,以促进视觉 - 语言协调,实验证明其在复杂的视觉 - 语言任务中优于 GPT-4V 与文本的 CoT 提示。