Jan, 2024

自我想象:使用多模态模型进行高效单模态推理

TL;DR使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示,并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。