Jun, 2024

思考跨模态的思维步骤白板

TL;DR白板思维引导是一个简单的方法,可以解锁多模态大型语言模型在视觉推理方面的能力,通过提供 “白板” 以图像形式呈现推理步骤,然后将这些图像返回给模型进行进一步处理。该方法在涉及视觉和空间推理的四个自然语言任务方面展现了最先进的结果,同时解决了 GPT-4o 使用思维链的多个失败场景,并在这些相同场景中实现了 92% 的准确率。