BriefGPT.xyz
Ask
alpha
关键词
vision-language coordination
搜索结果 - 1
大型多模态模型中的支架坐标促进视觉 - 语言协调
提出了一种 Scaffold 提示方案,通过在图像中覆盖点矩阵作为视觉信息锚点,并利用多维坐标作为文本位置参考,以促进视觉 - 语言协调,实验证明其在复杂的视觉 - 语言任务中优于 GPT-4V 与文本的 CoT 提示。
PDF
5 months ago
Prev
Next