Jan, 2024

推进大型多模型:明确的推理链与视觉问题生成

TL;DR本文介绍了一种通过图像内容和文字指令进行显式推理的新方法,采用大型多模态模型(LMM),并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时,朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。