Feb, 2024

多模态大型语言模型中的图推理图渲染

TL;DR本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性,并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。