Jan, 2023

视觉与语言模型之间的交互提示:基于知识的视觉推理

TL;DR本文提出了一个名为IPVR的交互提示视觉推理框架,用于少样本的基于知识的视觉推理,它包含see,think和confirm三个阶段,利用视觉感知模型和大规模语言模型进行推理,可实现对推理过程的全透明跟踪和解释。