关键词compositional knowledge
搜索结果 - 2
- 大型多模态模型的构图推理引导
本研究提出了一种基于场景图的链式思维(Compositional Chain-of-Thought,CCoT)方法,通过在大型多模态模型(LMM)中利用场景图表示来提取组成性知识,从而改进了多种视觉语言(VL)组成性基准的性能以及多模态基准 - CLIP 是否绑定概念?探索大型图像模型的组合能力
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的