Jan, 2024

通过挖掘问答提示发现丰富的视觉线索,为需要多样化世界知识的 VQA 提供支持

TL;DR我们提出了一种名为 Q&A Prompts 的方法,该方法通过挖掘图像中的问题 - 回答对来发现丰富的视觉线索,并将其作为提示发送给预训练的多模态大型语言模型,以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。