Feb, 2024

视觉去想象指导生成:了解自己不知道的知识

TL;DR在这项研究中,我们提出了一种创新的视觉幻觉概念,称为“我知道(IK)”幻觉,以解决所需回答为“我不知道”的场景。为了有效应对这个问题,我们提出了VQAv2-IDK基准,这是由人类标注人员确定的不可回答的图像问题对的子集。更进一步,我们提出了用于IK幻觉的视觉解幻指令生成方法,并介绍了IDK-Instructions视觉指令数据库。我们的实验证明了当前方法在处理IK幻觉时存在困难,然而我们的方法有效减少了这些幻觉,证明了它在不同框架和数据集上的多功能性。