Jun, 2024

视觉草稿本:多模态语言模型的可视化思维链

TL;DR本研究介绍了Sketchpad框架,通过为多模态语言模型提供视觉草图板和绘图工具,使其在推理过程中绘制视觉成果,从而显著改善任务表现。