Nov, 2023

走向自顶向下推理:可解释的多代理视觉问答方法

TL;DR本论文提出了一个可解释的多智能体协作框架,通过利用在广泛语料库上训练的大型语言模型中嵌入的知识,以人类认知为灵感,使用三个智能体,即探索者、回答者和整合者,进行自顶向下推理过程,从而明确地构建特定图像场景的多视图知识库,以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估,并通过全面的实验结果证明了其广泛的适用性和可解释性。