Nov, 2023

大型多模态模型的构图推理引导

TL;DR本研究提出了一种基于场景图的链式思维(Compositional Chain-of-Thought,CCoT)方法,通过在大型多模态模型(LMM)中利用场景图表示来提取组成性知识,从而改进了多种视觉语言(VL)组成性基准的性能以及多模态基准的性能。