Jan, 2023
视觉与语言模型之间的交互提示:基于知识的视觉推理
See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning
TL;DR本文提出了一个名为IPVR的交互提示视觉推理框架,用于少样本的基于知识的视觉推理,它包含see,think和confirm三个阶段,利用视觉感知模型和大规模语言模型进行推理,可实现对推理过程的全透明跟踪和解释。